TURiNG 图 灵 程 序 设计 丛书 


图 久负盛名 的 Python 入 门 经 典 


图 中 文 版 票 计 销量 200 000+ 册 


图 针对 Python 3 全 新 升级 
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效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


Magnus Lie Hetland 


挪威 科技 大 学 副教授 ， 教 授 算 
法 ; 黑客， 喜欢 钻研 新 锐 编程 
语言 ， 是 Python 语言 的 坚定 支 
持 者 。 写 过 很 多 Python 方面 的 
书 和 在 线 教程 ， 比 如 深 受 读者 
欢迎 的 网 上 教程 “Instant 
Python” 。 表 演 专业 的 业余 爱 
好 者 ， 从 1985 年 首次 登台 至 
今 ， 已 经 参 演 数 十 部 话剧 。 
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本 书包 括 Python 程序 设计 的 方方面面 : 首先 ， 从 Python 的 安装 开始 ， 
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内 容 提 要 


随后 介绍 了 Python 的 基础 知识 


和 基本 概念 ， 包 括 列表 、 元 组 、 字 符 串 、 字 典 以 及 各 种 语句 ; 然后 ， 循 序 渐进 地 介绍 了 一 些 相对 高 级 的 主 


题 ， 包 括 抽 象 、 异 常 、 魔 法 方法 、 属 性 、 迭 代 器 ;此 后 ， 探 讨 了 如 何 将 Python 与 数据 库 、 
目 ， 从 而 发 挥 出 Python 的 强大 功能 ， 同 时 介绍 了 Python 程序 测试 、 打 包 、 发 布 等 知识 ， 最 后 ， 























工具 结合 使 月 
作者 结合 前 面 讲述 的 内 容 ， 按 照 实际 项 目 
本 书 内 容 涉及 的 范 


Python 开发 人 员 阅 读 参考 。 





网 络 、C 语言 等 


开发 的 步骤 向 读者 介绍 了 10 个 具有 实际 意义 的 Python 项 目的 开 











围 较 广 ， 既 能 为 初学 者 夯实 基础 ， 又 能 帮助 程序 员 提升 技能 ， 适 
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巨 蟒 剧 团 "“ 有 首 老 歌唱 道 :“ 又 来 了 一 个 , 它 走 了 又 来 。 又 来 了 一 个 ,什么 时 候 是 个 头 ? ” 自 
本 书 第 2 版 面世 以 来 ，Python 3 的 普及 程度 得 到 了 极 大 提高 ， 因 此 这 一 版 完全 转向 了 Python 3。 在 
此 期 间 ， 还 有 其 他 的 变化 ， 在 Python 生态 系统 中 ,各 种 包 轮 番 登 场 ， 各 种 编码 实践 大 行 其 道 后 又 
日 渐 式微 。 在 必要 之 处 或 对 读者 有 帮助 的 前 提 下 ， 本 书 的 有 些 部 分 完全 重 写 , 但 最 初 的 痕迹 还 依 
稀 可 见 。 例 如 ， 本 书 前 身 Practical Python 于 21 世 纪 初 出 版 时 ，Usenet 依 然 应 用 广泛 ， 可 现在 大 多 
数 互联 网 用 户 可 能 从 未 听 说 过 它 。 因 此 ， 对 于 第 23 章 创建 连接 到 NNTP 服 务 器 的 项 目 ， 与 其 说 是 
为 了 介绍 主流 编程 生涯 中 将 用 到 的 编程 技能 , 不 如 说 是 让 读者 了 解 一 下 历史 。 一 些 比较 古怪 的 内 
容 也 依旧 保留 ， 因 为 它们 是 很 不 错 的 编程 示例 ， 也 是 本 书 修长 历史 的 见证 。 

与 以 往 一 样 ， 我 要 深 深 地 感谢 让 本 书 以 前 各 版 得 以 付 梓 的 人 。 这 里 我 要 特别 感谢 Mark 
Powers， 感 谢 他 在 我 进度 缓慢 时 极 具 耐心 。 还 要 感谢 Michael Thomas ， 感 谢 他 出 色 的 技术 审阅 工 
作 (并 指出 了 原稿 中 所 有 的 Python 2 式 print 语 句 )。 但 愿 你 喜欢 全 新 升级 后 的 这 一 版 。 正 如 Terny 
Jones 在 提 到 那 首 老 歌 时 所 说 :“ 显 然 ， 有 一 个 完整 的 管弦 乐队 会 更 好 。 


第 2 版 前 言 


新 版 的 《Python 基础 教程 》 终 于 和 大 家 见面 了 。 如 果 算 上 本 书 的 前 身 Practical Python， 实 际 
上 这 已 经 是 第 3 版 了 。 这 是 我 将 近 10 年 心血 的 结晶 。 在 此 期 间 ，Python 发 生 了 很 多 有 趣 的 变化 ， 
我 也 尽力 调整 了 对 这 门 语 言 的 介绍 。 当 前 , Python 处 于 长 期 以 来 最 为 翻天 履 地 的 转变 期 : Python 3 
推出 。 编 写本 书 期 间 ， 最 终 版 本 还 未 发 布 ， 但 其 包含 的 功能 已 确定 ， 还 推出 了 多 个 可 用 的 版 本 。 
这 次 修订 不 向 后 兼容 , 这 是 我 编写 这 一 版 时 面临 的 最 大 挑战 。 换 而 言 之 , 我 不 能 仅仅 挑 出 一 些 新 
增 的 功能 进行 介绍 。 男 外 ， 它 还 修改 了 一 些 既 有 的 功能 ， 因 此 有 些 在 Python 2.5 中 理所当然 的 事 
情 在 新 版 本 中 已 不 再 正确 。 

倘若 整个 Python 社区 都 立即 转向 Python 3 并 修改 所 有 的 遗留 代码 ， 那 根本 不 成 问题 。 我 只 需 
介绍 Python 3 就 行 ! 然而 ， 目 前 依然 存在 大 量 用 Python 2 编写 的 代码 , 而且 大 家 可 能 还 会 继续 编写 
这 样 的 代码 ， 直 到 有 一 天 所 有 人 都 认为 应 使 用 Python 3。 

那么 我 是 如 何 应 对 这 种 变化 的 呢 ?” 首 先 , 虽然 有 些 向 后 兼容 的 变化 , 但 Python 语言 本 身 总 体 变 






































































































































































































































QD Monty Python， 英 国 的 一 个 超 现实 幽默 表演 团体 ， 喜剧 界 的 披 头 士 ， 在 20 世 纪 70 年 代 风 靡 全 球 。Python 语 言 的 命 
名 来 源 于 此 。 一 一 编者 注 
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化 不 大 。 因 此 ， 如 果 完 全 针对 Python 2.5， 编 写 的 内 容 对 Python 3 来 说 也 是 大 体 正确 的 (对 Python 2.6 
来 说 更 是 如 此 )。 至 于 那些 不 再 正确 的 部 分 , 我 采取 了 比较 保守 的 态度 ,因为 大 家 完全 接受 Python 3 
还 需要 一 段 时 间 。 因 此 ， 这 一 版 主要 是 基于 Python 2.5 编 写 的 ， 同 时 指出 将 会 改变 的 情形 。 另 外 ， 

我 还 提供 了 附录 D， 让 你 对 重大 变化 有 大 致 的 了 解 。 对 大 多 数 读者 来 说 ， 这 样 处 理 是 完全 可 行 的 。 

编写 这 一 版 期 间 , 有 几 个 人 帮 了 我 很 大 的 忙 , 与 前 两 版 ( 本 书 第 1 版 以 及 之 前 的 Practical Python ) 
一 样 , Jason Gilmore 扶 我 上 马 , 并 在 项 目 启动 期 间 扮演 了 重要 角色 。 项目 启动 后 , Richard Dal Porto、 
Frank Pohlmann 和 Dominic Shakeshaft 不 断 伸 出 援手 ， 保 证 项 目 得 以 顺利 进行 。 在 确保 代码 正确 方 
面 ，Richard Taylor 居 功 至 伟 ( 倘若 代码 依然 存在 错误 ， 责 任 在 我 )， 而 Marilyn Smith 出 色 地 完成 了 
手稿 润色 工作 。 这 里 还 要 感谢 Apress 出 版 社 的 其 他 工作 人 员 ， 他 们 是 Liz Berry 、Beth Christmas 、 

Steve Anglin 和 Tina Nielsen。 另 外 ， 感 谢 包 括 Bob Helmbold 和 Waclaw Kusnierczyk 在 内 的 读者 提出 勘 
误 和 宝贵 的 建议 。 最后, 在 本 书 前 两 版 的 出 版 过 程 中 , 很 多 人 都 提供 了 帮助 , 这 里 衷心 地 感谢 他 们 。 


第 1 版 前 言 


几 年 前 ，Jason Gilmore 找 到 我 ， 让 我 为 Apress 出 版 社 写本 书 。 他 看 了 我 撰写 的 Python 在 线 教 
程 ， 想 让 我 写 一 本 风格 类 似 的 书 。 我 受宠若惊 ， 既 兴奋 又 有 点 紧张 。 我 最 关心 的 是 ， 这 需要 多 长 
时 间 、 对 学 业 会 有 多 大 的 影响 ， 因 为 当时 我 正在 读 博士 。 结 果 表明 ， 这 是 一 项 非常 艰巨 的 任务 ， 
花费 的 时 间 远 远 超出 了 预期 。 

所 笠 这 对 我 的 学 业 没 有 太 大 的 影响 ， 我 按时 获得 了 博士 学 位 。 

去 年 , Jason 又 找到 我 说 , Apress 出 版 社 想 让 我 对 原 书 进行 修订 和 扩充 , 不 知道 我 是 否 有 兴 
当时 我 正 忙 于 熟悉 新 取得 的 副教授 职位 ,而 业余 时 间 都 花 在 了 扮演 Peer Gynt 上 ,因此 时 间 依 然 是 
主要 的 问题 。 事情 安排 受 当 并 有 更 多 业余 时 间 后 ,我 接受 了 这 项 任务 。 你 可 能 猜 到 了 ,最终 的 结 
晶 就 是 你 现在 手 捧 的 这 本 书 。 本 书 的 大 多 数 内 容 都 来 自 Practical Python， 但 基于 Python 的 最 新 变 
化 做 了 全 面 修订 , 同时 新 增 了 几 章 。 另 外 , 根据 这 一 版 的 组 织 结构 , 调整 了 原来 一 些 内 容 的 位 置 。 
很 多 读者 对 Practical Python 提 供 了 积极 的 反馈 ,但 愿 本 版 保留 了 读者 喜欢 的 内 容 ， 同 时 新 增 的 内 
容 也 能 得 到 读者 青睐 。 

本 书 编写 期 间 ， 有 几 个 人 不 断 地 给 予 我 帮助 和 鼓励 。 没 有 他 们 ， 本 书 根本 不 可 能 付 梓 。 这 里 
对 他 们 表示 衷心 的 感谢 。 感 谢 本 书 编写 期 间 直 接 与 我 协作 的 团队 :Jason Gilmore 让 这 个 项 目 得 以 
上 马 并 确保 不 偏离 方向 ;Beckie Stones 整 理 各 种 材料 ; Jeremy Jones 和 Matt Moodie 提 供 了 专业 的 
意见 和 见解 ; Linda Marousek 对 我 极 具 耐心 ; 还 有 其 他 成 员 让 本 书 得 以 顺利 出 版 。 如 果 没 有 
Practical Python 打 下 的 基础 ， 本 书 不 会 是 现在 这 个 样子 。 这 里 要 感谢 Jason Gilmore 和 Alex Martelli 
出 色 的 技术 编辑 工作 ( Jason 负 责 全 书 ，Alex 负 责 前 半 部 分 ) 以 及 本 职 之 外 的 各 种 意见 和 建议 。 感 
谢 Erin Mulligan 和 Tory McLearn 一 路 上 领 我 前 行 ， 并 在 需要 时 让 我 调整 方向 。 感谢 Nancy Rapoport 
对 手稿 进行 润色 。 感 谢 Grace Wong 回 答 他 人 无 法 回答 的 问题 。 感 谢 Pete Shinners 就 项 目 10 的 游戏 
提供 宝贵 的 建议 。 感谢 多 位 读者 的 来 信 ， 这 些 来 信 给 了 我 极 大 的 鼓励 ! 最 后 ,感谢 我 的 家 人 和 朋 
友 ， 尤 其 是 女 朋 友 Ranveig 在 本 书 编写 期 间 给 予 的 宽容 。 
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C 程 序 狂 如 拿 着 着 刀 在 刚 打 过 蜡 的 地 板 上 劲舞 。 





Waldi Ravens 
C++ 学 起 来 很 难 ， 因 为 它 天 生 如 此 。 
一 一 佚名 
Java 从 很 多 方面 来 说 ， 就 是 简化 版 的 C++。 
Michael Feldman 





接 下 来 请 欣赏 与 众 不 同 的 表演 。 
一 一 巨 娣 剧团 之 《飞翔 的 马戏 团 》 








前 面 引 用 了 别人 的 几 句 话 ， 旨 在 为 本 书 定 下 基调 ， 就 是 不 那么 严肃 正式 。 为 让 本 书 阅读 起 来 
轻松 愉快 ， 我 力图 以 幽默 的 方式 来 讨论 Python 编程 这 个 主题 。 幽 默 是 Python 社区 的 传统 ， 而 这 种 
幽默 在 很 大 程度 上 与 巨 蟒 剧 团 的 短 剧 相关 。 因 此 , 本 书 的 有 些 示 例 看 起 来 有 点 傻 , 但 愿 你 能 容忍 。 
[ 顺便 说 一 句 ，Python 来 源 于 巨 蟒 剧 团 (Monty Python )， 而 不 是 蟒蛇 。] 这 里 将 简单 地 说 说 Python 
是 什么 ， 为 何 要 使 用 它 ， 有 哪些 人 在 使 用 它 ， 本 书 为 谁 而 写 ， 并 概述 本 书 的 组 织 结构 。 

Python 是 什么 ?” 为 何 要 使 用 它 ? 官方 宣传 说 :Python 是 一 种 面向 对 象 的 解释 性 高 级 编程 语言 ， 
具有 动态 语义 。 这 人 句 话 中 有 很 多 术语 ,在 阅读 本 书 的 过 程 中 ， 你 会 逐渐 了 解 其 含义 。 这 人 句 话 的 要 
点 在 于 ， Python 是 一 种 知道 如 何不 妨碍 你 编写 程序 的 编程 语言 。 它 让 你 能 够 毫 无 困难 地 实现 所 需 
的 功能 ,还 让 你 能 够 编写 出 清晰 易 懂 的 程序 ( 与 使 用 当前 流行 的 其 他 大 多 数 编程 语言 相 比 ,编写 
出 来 的 程序 要 清晰 易 懂得 多 )。 

虽然 Python 的 速度 可 能 没有 C 、C++ 等 编译 型 语言 那么 快 ， 但 它 能 够 节省 编程 时 间 。 仅 考虑 
到 这 一 点 就 值得 使 用 Python ， 襄 且 对 大 多 数 程序 而 言 ， 速 度 方面 的 差别 并 不 明显 。 如 果 你 是 C 语 
言 程 序 员 ， 那 么 你 可 轻松 地 使 用 C 语 言 实现 程序 的 重要 部 分 ， 再 将 其 与 Python 部 分 整合 起 来 。 如 
果 你 没有 任何 编程 经 验 ( 并 对 我 提 及 C 和 C++ 感到 有 点 迷惑 )， 那 么 简洁 而 强大 的 Python 就 是 你 进 
入 编程 砍 演 的 理想 选择 。 
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那么 ， 有 哪些 人 在 使 用 Python 呢 ? 从 Guido van Rossum 于 20 世 纪 90 年 代 初创 造 这 门 语言 起 ， 
其 追随 者 就 在 不 断 增加 ， 最 近 几 年 尤其 如 此 。Python 广 泛 用 于 完成 系统 管理 任务 ( 例如， 它 是 多 
个 Linux 发 行 版 的 重要 组 成 部 分 )， 也 被 用 来 向 新 手 介绍 编程 。NASA 使 用 它 来 完成 开发 工作 ， 并 
在 多 个 系统 中 将 其 用 作 脚 本 语言 ;工业 光 魔 公司 在 预算 庞大 的 故事 片 中 使 用 Python 来 制作 特效 ; 
Yahoo! 使 用 它 ( 以 及 其 他 技术 ) 来 管理 讨论 组 ; Google 使 用 它 实 现 了 网 络 疏 虫 和 搜索 引擎 的 众多 
组 件 。Python 还 被 用 于 计算 机 游戏 和 生物 信息 等 众多 领域 。 不 久 后 可 能 就 会 有 人 问 : 有 谁 不 使 用 
Python 呢 ? 

本 书 是 为 有 志 于 学 习 Python 编 程 的 人 写 的 ， 适 合 从 编程 门外汉 到 计算 机 高 手 的 各 种 读者 阅 
读 。 如 果 你 没有 任何 编程 经 验 ， 应 从 第 1 章 开始 阅读 ， 阅 读 到 看 不 懂 的 内 容 后 ， 开 始 动手 编写 一 
些 程序 。 等 到 条 件 成 熟 后 ， 再 回 过 头 来 继续 阅读 更 复杂 的 内 容 。 

如 果 你 熟悉 编程 ， 对 有 些 基础 知识 可 能 并 不 陌生 (但 书 中 会 不 时 出 现 令 你 意外 的 细节 )， 
此 可 大 致 浏览 前 几 章 ， 以 便 对 Python 的 工作 原理 有 大 致 认识。 当然 ， 也 可 通读 附录 A。 它 是 根据 
Python 在 线 教程 “Instant Python” 改 编 而 来 的 ， 让 你 能 够 快速 了 解 最 重要 的 Python 概 念 。 对 它 有 
大 致 认识 后 ， 可 直接 跳 到 第 10 章 ， 去 学 习 Python 标 准 库 。 

本 书 的 最 后 10 章 是 10 个 编程 项 目 , 展示 了 了 Python 语言 的 各 种 功能 ,无 论 你 是 初学 者 还 是 专家 ， 
都 应 该 会 对 这 些 项 目 感 兴趣 。 虽然 对 经 验 不 那么 丰富 的 程序 员 来 说 , 最 后 几 个 项 目 理 解 起 来 有 点 
难 ， 但 阅读 本 书 的 前 半 部 分 之 后 ， 完 全 能 够 按说 明 完 成 这 些 项 目 。 

这 些 项 目 涉及 众多 主题 , 掌握 这 些 主题 对 你 自己 动手 编写 程序 大 有 神 益 。 你 将 学 习 如 何 完 成 
一 些 现在 看 起 来 根本 无 法 完成 的 任务 , 如 创建 聊天 服务 器 、 点 对 点 文件 共享 系统 和 功能 齐备 的 
形 计算 机 游戏 。 这 些 任务 乍 一 看 好 像 很 难 ， 但 最 终 你 将 发 现 ， 它 们 实际 上 大 多 容易 得 难以 置信 。 
如 果 你 想 下 载 源 代码 ， 可 访问 Apress 网 站 ( http://www.apress.com ) "。 

就 说 这 么 多 。 宛 长 的 引言 总 是 让 我 觉得 有 点 烦 ， 现 在 就 开始 Python 编 程 吧 一 一 从 第 1 章 或 附 
录 A 开 始 。 祝 你 好 运 ， 编 程 愉快 ! 





































































































































































































Q@ 图 灵 社 区 本 书页 面 也 提供 源 代码 下 载 : ituring.com.cn/book/2118。 一 一 编者 注 
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该 动手 实践 了 。 在 本 章 中 ,你 将 学 习 如 何 借助 计算 机 能 够 听 懂 的 语言 一 一 Python 一 一 来 控制 
它 。 这 里 没有 什么 太 难 的 内 容 ， 只 要 了 解 计算 机 的 基本 工作 原理 ,就 能 按部就班 地 完成 本 章 的 示 
例 。 我 将 从 最 简单 的 内 容 着 手 介绍 一 些 基 本 知识 ， 但 鉴于 Python 功能 强大 ， 你 很 快 就 能 完成 一 些 
非常 复杂 的 任务 。 

首先 ， 需 要 安装 Python 或 核实 已 经 安装 了 它 。 如 果 你 使 用 的 是 macOS 或 Linux/UNIX， 请 打开 
终端 (在 Mac 中 为 应 用 程序 Terminal )， 输 入 python 并 按 回 车 键 。 你 将 看 到 一 条 欢迎 消息 ， 其 末尾 
为 如 下 提示 符 : 

如 果 情 况 确实 如 此 ， 就 可 以 输入 Python 命令 了 ， 但 需要 注意 的 是 ， 你 的 系统 安装 的 可 能 是 较 
旧 的 Python 版 本 。 如 果 第 一 行 消息 的 开头 为 Python 2, 而 不 是 Python 3, 你 可 能 要 安装 较 新 的 版 本 ， 
为 Python 3 在 多 个 方面 发 生 了 翻天 覆 地 的 变化 。 

具体 的 安装 步 又 视 使 用 的 操作 系统 和 安装 方式 而 异 , 但 最 简单 的 方法 是 访问 www.python.org， 
其 中 有 下 载 页 面 的 链接 。 安 装 过 程 非常 简单 ， 不 管 你 使 用 的 是 Windows、macOS、Linux/UNIX 
还 是 其 他 操作 系统 ， 只 需 单 击 链接 就 可 访问 相应 的 最 新 版 本 。 如 果 你 使 用 的 是 Windows 或 Mac， 
将 下 载 一 个 安装 程序 ， 可 通过 运行 它 来 安装 Python。 如 果 你 使 用 的 是 Linux/UNIX， 将 下 载 到 
源 代 码 压 缩 文 件 ， 需 要 按说 明 进 行 编译 ， 但 通过 使 用 Homebrew、APT 等 包 管 理 器 ， 可 简化 安装 
过 程 。 

安装 Python 后 ， 尝 试 启动 交互 式 解 释 器 。 要 从 命令 行 启动 Python， 只 需 执行 命令 python。 如 
果 同 时 安装 了 较 旧 的 版 本 ， 可 能 需要 执行 命令 python3。 如 果 你 更 喜欢 使 用 图 形 用 户 界 面 ， 可 启 
动 Python 自 带 的 应 用 程序 IDLE。 


1.1 交互 式 解 释 器 
启动 Python 后 ， 可 看 到 类 似 于 下 面 的 提示 符 : 


Python 3.5.0 (default, Dec 5 2015, 15:03:35) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> 
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解释 器 的 外 观 及 其 显示 的 错误 消息 因 版 本 而 异 。 虽然 看 上 去 没 多 大 意思 ,但 请 相信 我 , 这 其 


























实 很 有 趣 ， 因 为 这 是 进入 黑客 殿堂 的 大 门 一 一 对 计算 机 进行 控制 的 第 一 步 。 更 准确 地 说 ， 这 是 一 
个 交互 式 Python 解释 器 。 请 尝试 像 下 面 这 样 做 ， 以 核实 它 是 否 管用 : 








>>> print("Hello, world!") 


等 你 按 下 回 车 键 后 ， 将 出 现 如 下 输出 : 


Hello, world! 
>>> 


如 果 你 熟悉 其 他 计算 机 语言 ， 可 能 习惯 了 在 每 行 末尾 都 加 上 分 号 。 在 Python 中 无 需 这 样 做 ， 











因为 在 Python 中 ,一 行 就 是 一 行 。 如 果 你 愿意 ， 也 可 加 上 分 号 , 但 不 会 有 任何 影响 ( 除非 后 面 还 


有 其 他 代码 ), 况且 大 家 通常 都 不 这 样 做 。 


Wor 


























这 是 怎么 回 事 呢 ? >>> 是 提示 符 , 可 在 它 后 面 输入 一 些 内 容 。 例 如 , 如 果 你 输入 print("Hello， 
1d1") 并 按 回 车 键 ，Python 解 释 器 将 打印 字符 串 "Hello，world!"， 然 后 再 次 显示 提示 符 。 
如 果 输 入 截然 不 同 的 内 容 呢 ? 请 尝试 这 样 做 : 


>>> The Spanish Inquisition 
SyntaxError: invalid syntax 
>>> 


显然 , 解释 器 没有 看 懂 ”( 如 果 你 运行 的 不 是 IDLE， 而 是 Linux 命 令 行 解释 器 ,错误 消息 可 能 

















稍 有 不 同 )。 解释 器 还 指出 了 问题 出 在 什么 地 方 : 使 用 红色 背景 色 〈 在 命令 行 解释 器 中 ， 使 用 的 




















是 脱 字符 号 ^ ) 突出 单词 Spanish。 





如 果 你 喜欢 这 个 解释 器 ,可 再 尝试 几 次 《要 获取 使 用 指南 ， 可 在 提示 符 下 输入 命令 help() 并 





按 回 车 键 。 在 IDLE 中 ,还 可 按 Fl1 来 获取 帮助 信息 )， 否 则 请 接着 往 下 读 。 毕 竟 ， 在 不 知道 如 何 与 

















之 交流 的 情况 下 ， 这 个 解释 右 并 不 是 很 有 趣 。 


1.2 算法 是 什么 








真 刀 真 枪 地 编写 程序 前 ， 先 来 说 说 何 为 计算 机 编程 。 简 而 言 之 , 计算 机 编程 就 是 告诉 计算 机 















































如 何 做 。 计算 机 多 才 多 艺 , 但 不 太 善 于 独立 思考 ,我 们 必须 提供 详尽 的 细节 ,使 用 它们 能 够 明白 
的 语言 将 算法 提供 给 它们 。 算 法 只 不 过 是 流程 或 菜谱 的 时 瞩 说 法 , 详尽 地 描述 了 如 何 完 成 某 项 任 


务 。 





请 看 下 面 的 菜谱 : 
鸡蛋 火腿 肠 : 先 取 一 些 火腿 肠 。 
再 加 些 火 腿 肠 和 鸡蛋 。 


如 果 喜 欢 吃 阁 ， 加 些 辣 味 火 腿 肠 。 
者 熟 为 止 。 记 得 每 隔 10 分 钟 检查 一 次 。 
这 个 菜谱 并 不 神奇 , 但 其 结构 很 有 启发 性 。 它 由 一 系列 必须 按 顺 序 执行 的 操作 说 明 组 成 , 其 














毕竟 ， 谁 都 没 想 到 遇 上 了 西班牙 宗教 裁判 所 ( Spanish Inquisition )。 





1.3 数 和 表达 式 3 





中 有 些 可 直接 完成 ( 取 些 火腿 肠 )， 有 些 需 要 特别 注意 ( 如 果 喜 欢 吃 辣 ), 还 有 一 些 需 要 重复 多 次 
(每 隔 10 分 钟 检查 一 次 )。 

菜谱 和 算法 都 由 原料 ( 对 象 ) 和 操作 说 明 (语句 ) 组 成 。 在 这 个 示例 中 ， 火 腿 肠 和 鸡蛋 是 原 
料 , 而 操作 说 明 包 括 添加 火腿 肠 、 京 饪 指定 的 时 间 等 。 下 面 首先 介绍 一 些 非常 简单 的 Python 原 料 ， 
看 看 可 以 对 它们 做 些 什么 。 


1.3” 数 和 表达 式 
交互 式 Python 解释 器 可 用 作 功 能 强大 的 计算 器 。 请 尝试 执行 如 下 操作 : 


机 :这 
结果 应 该 为 4， 这 不 难 。 下 面 的 运算 呢 ? 


>>> 53672 + 235253 
288925 


还 是 觉得 没什么 ? 不 可 和 否认， 这 是 很 常见 的 运算 。( 下 面 假设 你 对 如 何 使 用 计算 器 很 熟悉 ， 知 道 
1 + 2 * 3 和 (1 + 2) *3 有 何不 同 。) 所 有 常见 算术 运算 符 的 工作 原理 都 与 你 预期 的 一 致 。 除 法 
运算 的 结果 为 小 数 ， 即 浮 点 数 ( float 或 人 oating-point number )。 


3 和 




















如 果 你 想 丢 弃 小 数 部 分 ， 即 执行 整除 运算 ,可 使 用 双 和 斜 杠 。 


>>> 1//2 

0 

> > A 

和 

>>> 5.0 // 2.4 
25 术 


在 较 旧 的 Python 版 本 中 ,对 整数 执行 常规 除法 运算 的 结果 与 使 用 双 和 斜 村 类似。 如 果 你 使 用 的 
是 Python 2.x， 要 对 整数 执行 常规 除法 运算 ， 可 在 程序 开头 添加 如 下 语句 〈 稍 后 介绍 如 何 编写 完 
整 的 程序 )， 也 可 直接 在 交互 式 解释 器 中 执行 这 条 语句 : 


>>> from _future import division 

















注意 在 上 述 语句 中 ，future 前 后 分 别 是 两 条 下 划 线 : _ future 。 


另外 ， 从 命令 行 运行 较 旧 的 Python 版 本 时 ， 还 可 使 用 命令 行 开 关 -Qnew。1.8.2 节 将 更 详尽 地 
介绍 _future 。 

至 此 ， 你 了 解 了 基本 的 算术 运算 符 〈 加 法 、 减 法 、 乘 法 和 除法 )， 但 还 有 一 种 与 整除 关系 紧 
密 的 运算 没有 介绍 。 
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这 是 求 余 ( 求 模 ) 运算 符 。x % y 的 结果 为 x 除 以 y 的 余数 。 换 而 言 之 ,结果 为 执行 整除 时 余 
下 的 部 分 ， 即 x % y 等 价 于 x - ((x // y) * y)。 


>>> 10 // 3 

3 

>>> 10 % 3 

1 

>>> 9 // 3 

3 

>>> 9 % 3 

0 

S35 2.75. WO0.5 
0.25 


在 这 里 ，10 // 3 为 3， 因 为 结果 向 下 圆 整 ， 而 3 x 3 为 9， 因 此 余数 为 1。 将 9 除 以 3 时 ， 结 果 正 
好 为 3， 没 有 向 下 圆 整 ， 因 此 余数 为 0。 在 需要 执行 之 前 菜谱 指定 的 “每 10 分 钟 检 查 一 次 ”之 类 的 
操作 时 ， 这 种 运算 可 能 很 有 用 : 只 需 检 查 minute % 10 是 否 为 0。( 有 关 如 何 执行 这 种 检查 ， 请 参 
阅 本 章 后 面 的 旁 注 “先睹为快 : if 语句 ”。) 从 最 后 一 个 示例 可 知 ， 求 余 运 算 符 也 可 用 于 浮 点 数 。 
这 种 运算 符 甚 至 可 用 于 负数 ， 但 可 能 不 那么 好 理解 。 


>>> 10 % 3 

4 

>>> 10 % -3 
-2 

>>> -10 % 3 
2 

>>> -10 % -3 
-1 


你 也 许 不 能 通过 这 些 示 例 一 眼看 出 求 余 运算 的 工作 原理 , 但 通过 研究 与 之 配套 的 整除 运算 可 


>>> 10 // 3 

3 

>>> 10 // -3 
-4 

>>> -10 // 3 
-4 

>>> -10 // -3 
3 


基于 除法 运算 的 工作 原理 , 很 容易 理解 最 终 的 余数 是 多 少 。 对 于 整除 运算 , 需要 明白 的 一 个 
重点 是 它 向 下 圆 整 结果 。 因 此 在 结果 为 负数 的 情况 下 , 圆 整 后 将 离 0 更 远 。 这 意味 着 对 于 -10 // 3， 
将 向 下 圆 整 到 -4， 而 不 是 向 上 圆 整 到 -3。 

这 里 要 介绍 的 最 后 一 个 运算 符 是 乘 方 〈 求 需 ) 运算 符 。 

0 


8 
233.** 2 





















































-9 

>>> (-3) ** 2 

9 

请 注意 ， 乘 方 运算 符 的 优先 级 比 求 负 ( 单 目 减 ) 高 ， 因 此 -3**2 等 价 于 -(3**2)。 如 果 你 要 计 
算 的 是 (-3)**2， 必 须 明确 指出 。 


十 六 进 制 、 八 进 制 和 二 进 制 
结束 本 节 前 需要 指出 的 是 ， 十 六 进 制 数 、 八 进 制 数 和 二 进 制 数 分 别 以 下 面 的 方式 表示 : 


>>> OXxAF 

175 

>>> 010 

8 

>>> 0b1011010010 
722 


这 些 表示 法 都 以 0 打头 。( 如 果 你 不 明白 这 些 表 示 法 有 何 意义 ， 说 明 你 使 用 它们 的 机 会 不 多 ， 
只 需 将 其 牢记 在 心 即 可 。 ) 





























1.4 变量 


男 一 个 你 可 能 熟悉 的 概念 是 变量 ( variable )。 如 果 代 数 对 你 来 说 不 过 是 遥远 的 记忆 ， 也 不 用 
担心 ， 因 为 Python 中 的 变量 理解 起 来 很 容易 。 变 量 是 表示 ( 或 指向 ) 特定 值 的 名 称 。 例 如 ， 你 可 
能 想 使 用 名 称 x 来 表示 3， 为 此 执行 如 下 代码 : 

>>?>X=3 

这 称 为 赋值 (assignment ), 我 们 将 值 3 赋 给 了 变量 x。 换 而 言 之 ,就 是 将 变量 x 与 值 ( 或 对 象 ) 
3 关联 起 来 。 给 变量 赋值 后 ， 就 可 在 表达 式 中 使 用 它 。 


>>> X * 2 
6 


不 同 于 其 他 一 些 语言 ， 使 用 Python 变量 前 必须 给 它 赋 值 ， 因 为 Python 变量 没有 默认 值 。 





























注意 ”在 Python 中 ， 名 称 〈 标 识 符 ) 只 能 由 字母 、 数 字 和 下 划 线 (_) 构成 ， 且 不 能 以 数字 打头 。 
因此 Plan9 是 合法 的 变量 名 ， 而 9Plan 不 是 %。 


1.5 ”语句 
前 面 使 用 的 几乎 都 是 表达 式 , 相当 于 菜谱 中 的 原料 , 但 语句 (菜谱 中 的 操作 说 明 ) 是 什么 样 的 呢 ? 











Qa 在 某 种 程度 上 说 , 标识 符 命名 规则 基于 Unicode 标 准 ， 详 情 请 参阅 “Python 语言 参考 手册 ”( https://docs.python.org/ 
3/reference/lexical analysis.html )。 
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实际 上 ， 刚 才 说 的 不 完全 正确 ， 因 为 前 面 已 经 介绍 过 两 种 语句 了 : print 语 句 和 赋值 语句 。 
语句 和 表达 式 有 何不 同 呢 ? 你 可 以 这 样 想 : 表达 式 是 一 些 东 西 ， 而 语句 做 一 些 事 情 。 例 如 ，2 * 2 
的 结果 是 4， 而 print(2 * 2) 打 印 4。 表 达 式 和 语句 的 行为 很 像 ， 因 此 它们 之 间 的 界线 可 能 并 非 那 
么 明确 。 


> 

4 

>>> print(2 * 2) 
4 


在 交互 式 解释 器 中 执行 时 , 这 两 段 代码 的 结果 没有 任何 差别 , 但 这 是 因为 解释 器 总 是 将 表达 
式 的 值 打印 出 来 《打印 的 是 repr 表 示 的 内 容 ， 详 情 请 参阅 1.10.3 节 )。 然而， 在 Python 中 ， 情 况 并 
非 都 是 这 样 的 。 本 章 后 面 将 介绍 如 何 创建 无 需 交 互 式 解释 器 就 能 运行 的 程序 。 仅 将 诸如 2 * 2 等 
表达 式 放 在 程序 中 不 会 有 任何 作用 "， 但 在 程序 中 包含 print(2 * 2) 将 打印 结果 4。 









































注意 ”print 实际 上 是 一 个 函数 (这 将 在 本 章 后 面 更 详细 地 介绍 )， 因 此 前 面 说 的 print 语 句 其 实 
是 函数 调用 。 在 Python 2.x 中 ,print 是 一 条 语句 ,无 需 将 要 打印 的 内 容 作 为 参数 放 在 圆 括 
号 内 。 











涉及 赋值 时 , 语句 和 表达 式 的 差别 更 明显 : 鉴于 赋值 语句 不 是 表达 式 , 它们 没有 可 供 交 互 式 


解释 器 打印 的 值 。 
>>> X= 3 
>>> 











执行 赋值 语句 后 ， 交 互 式 解 释 髓 只 是 再 次 显示 提示 符 , 但 发 生 了 一 些 变化 ， 有 一 个 名 为 x 的 
新 变量 ， 与 值 3 相关 联 。 可 以 说 ， 这 是 所 有 语句 的 一 个 根本 特征 : 执行 修改 操作 。 例 如 ， 赋 值 语 
句 改变 变量 ， 而 print 语 句 改 变 屏幕 的 外 观 。 

无 论 在 什么 编程 语言 中 , 赋值 语句 都 可 能 是 最 重要 的 语句 , 虽然 这 一 点 你 可 能 难以 马上 明白 。 
变量 就 像 是 临时 “存储 区 ”( 类 似 于 菜谱 中 的 锅 碗 球 贫 )”， 其 真正 威力 在 于 无 需 知道 它们 存储 的 
值 就 能 操作 它们 。 

例如 ， 即 便 根本 不 知道 x< 和 y 是 什么 ， 你 也 知道 x * y 的 结果 为 x 和 y 的 乘积 。 因 此 ， 编 写 程序 
时 ， 你 能 以 各 种 方式 使 用 变量 ， 而 无 需 知 道 程序 运行 时 它们 将 存储 ( 指向 ) 的 值 。 































































































Qz 这 个 表达 式 确 实 会 执行 一 些 操作 : 计算 2 和 2 的 乘积 。 但 既 不 会 将 结果 保存 起 来 ， 也 不 会 向 用 户 显示 它 。 因 此 除 执 
行 计算 外 ， 没 有 其 他 任何 作用 。 

@) 请 注意 ， 这 里 给 “存储 区 ”加 上 了 引号 。 值 并 非 存储 在 变量 中 ， 而 是 存储 在 变量 指向 的 计算 机 内 存 中 。 多 个 变量 
可 指向 同一 个 值 。 深 入 阅读 后 会 更 清楚 地 了 解 这 一 点 。 
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1.6 ”获取 用 户 输入 -an 


前 面 说 过 , 编写 程序 时 无 需 知道 变量 的 值 就 可 使 用 它们 。 当 然 , 解释 器 最 终 必须 知道 变量 的 
值 ,可 它 怎 么 知道 我 们 不 知道 的 事情 呢 ? 解释 器 只 知道 我 们 已 告知 它 的 内 容 , 不 是 吗 ” 未 必 如 此 。 

你 编写 的 程序 可 能 供 他 人 使 用 , 无 法 预测 用 户 会 向 程序 提供 什么 样 的 值 。 我 们 来 看 看 很 有 用 
的 函数 input( 稍 后 将 更 详细 地 介绍 函数 )。 

>>> input("The meaning of life: ") 

The meaning of life: 42 

42， 

这 里 在 交互 式 解释 器 中 执行 了 第 一 行 ( input(...))， 它 打印 字符 串 "The meaning of life:"， 
提示 用 户 输入 相应 的 信息 。 我 输入 42 并 按 回 车 。 这 个 数 被 input ( 以 文本 或 字符 串 的 方式 ) 返回 ， 
并 在 最 后 一 行 被 自动 打印 出 来 。 通 过 使 用 int 将 字符 串 转 换 为 整数 ， 可 编写 一 个 更 有 趣 的 示例 : 


>>> x = input("x: ") 













































































X: 34 

>>> y = input("y: ") 

y: 42 

>>> print(int(x) * int(y)) 
1428 





对 于 上 述 在 Python 提示 符 (>>> ) 下 输入 的 语句 ， 可 将 其 放 在 完整 的 程序 中 ， 并 让 用 户 提供 
所 需 的 值 (34 和 42 )。 这样 ， 这 个 程序 将 打印 结果 1428， 即 前 述 两 个 数 的 乘积 。 在 这 种 情况 下 ， 
你 编写 程序 时 无 需 知道 这 些 值 ， 对 吧 ? 




















注意 ”将 程序 存储 在 独立 的 文件 中 ,让 其 他 用 户 能 够 执行 时 ,这 种 获取 输入 的 方式 将 有 用 得 多 。 
1.8 节 将 介绍 如 何 这 样 做 。 


先睹为快 : if 语句 


为 增添 学 习 乐 趣 ， 这 里 提前 说 说 原本 要 到 第 $ 章 才 介 绍 的 内 容 : if 语 句 。 通 过 使 用 if 语 
名， 可 在 给 定 条 件 满足 时 执行 特定 的 操作 ( 另 一 条 语句 ) 。 一 种 条 件 是 使 用 相等 运算 符 ( == 
表示 的 相等 性 检查 。 没 错 ， 相 等 运算 符 就 是 两 个 等 号 。 ( 一 个 等 号 用 于 赋值 ， 还 记得 吗 ? ) 

你 将 条 件 放 在 if 后 面 ， 再 加 上 冒号 ， 将 其 与 后 面 的 语句 分 开 。 


>>> if 1 == 2: print('One equals two') 
>>> if 1 == 1: print('One equals one') 


One equals one 
>>> 
条 件 不 满足 时 什么 都 不 做 ， 但 条 件 满足 时 ， 将 执 4 


j 冒 号 后 面 的 语句 ( 这 里 是 一 条 print 语 
名 )。 需 要 注意 的 另 一 点 是 ， 在 交互 式 解释 器 中 输入 if 语 句 后 ， 


需要 按 两 次 回 车 键 才能 执行 它 
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(其 中 的 原因 将 在 第 5 章 介 绍 ) 。 

因此 ， 如 果 变 量 time 指 向 的 是 以 分 钟 为 单位 的 当前 时 间 ， 可 使 用 如 下 语句 检查 当前 是 不 
是 整 点 : 

if time % 60 == 0: print('On the hour!') 


1.7 ”函数 
1.3 节 使 用 了 乘 方 运算 符 (*## ) 来 执行 蝴 运 算 。 实 际 上 ， 可 不 使 用 这 个 运算 符 ， 而 使 用 函数 pow。 


> 

8 

>>> pow(2，3) 
8 


函数 犹如 小 型 程序 ， 可 用 来 执行 特定 的 操作 。Python 提 供 了 很 多 函数 ， 可 用 来 完成 很 多 神奇 
的 任务 。 实 际 上 ,你 也 可 以 自己 编写 函数 (这 将 在 后 面 更 详细 地 介绍 )， 因 此 我 们 通常 将 pow 等 标 
准 函 数 称 为 内 置 函数 。 

像 前 一 个 示例 那样 使 用 函数 称 为 调用 函数 : 你 向 它 提供 实 参 〈 这 里 是 2 和 3 )， 而 它 返回 一 个 
值 。 鉴 于 函数 调用 返回 一 个 值 ， 因 此 它们 也 是 表达 式 ， 就 像 本 章 前 面 讨 论 的 算术 表达 式 一 样 "。 
实际 上 , 你 可 结合 使 用 函数 调用 和 运算 符 来 编写 更 复杂 的 表达 式 ( 就 像 前 面 使 用 函数 int 时 那样 )。 


>>> 10 + pow(2, 3 * 5) / 3.0 
10932.666666666666 


有 多 个 内 置 函数 可 用 于 编写 数值 表达 式 。 例 如 ，abs 计 算 绝 对 值 ，round 将 浮 点 数 圆 整 为 与 之 
最 接近 的 整数 。 

>>> abs(-10) 

10 

533K 2 3 

0 


>>> round(2 / 3) 
dy 


请 注意 最 后 两 个 表达 式 的 差别 。 整 数 总 是 向 下 圆 整 ， 而 zound 圆 整 到 最 接近 的 整数 ， 并 在 两 
个 整数 一 样 近 时 圆 整 到 偶数 。 如 果 要 将 给 定 的 数 向 下 圆 整 ， 该 如 何 做 呢 ? 例如 ,你 知道 某 人 的 年 
龄 为 32.9， 并 想 将 这 个 值 向 下 圆 整 为 ?22， 因 为 他 还 没有 满 33 岁 。Python 提 供 了 完成 这 种 任务 的 函 
数 floor ， 但 你 不 能 直接 使 用 它 ， 因 为 像 众多 很 有 用 的 函数 一 样 ， 它 也 包含 在 模块 中 。 


1.8 模块 
可 将 模块 视 为 扩展 ， 通 过 将 其 导入 可 以 扩展 Python 功能 。 要 导入 模块 ， 可 使 用 特殊 命令 








































































































Q@ 函数 调用 也 可 用 作 语句 ， 但 在 这 种 情况 下 ， 将 忽略 函数 的 返 








恬 
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import。 前 一 他 提 及 的 函数 floor 包 含 在 模块 math 中 。 


>>> import math 
>>> math.floor(32.9) 
32 


请 注意 其 中 的 工作 原理 : 我 们 使 用 import 导 入 模块 , 再 以 module.function 的 方式 使 用 模块 
中 的 函数 。 就 这 里 执行 的 操作 而 言 ， 也 可 像 前 面 处 理 input 的 返回 值 那样 ， 将 这 个 数字 转换 为 
整数 。 


>>> int(32.9) 
32 




















注意 ”还 有 一 些 类 似 的 函数 ， 可 用 于 转换 类 型 ， 如 str 和 float。 实 际 上 ， 它 们 并 不 是 函数 ， 而 
是 类 。 类 将 在 本 书后 面 更 详细 地 介绍 。 


模块 math 还 包含 其 他 几 个 很 有 用 的 本 数 。 例 如 ，ce 订 与 floor 相 反 ， 返 回 大 于 或 等 于 给 定数 
的 最 小 整数 。 


>>> math.ceil(32.3) 
33 

>>> math.ceil(32) 
32 


如 果 确 定 不 会 从 不 同 模 块 导入 多 个 同名 函数 , 你 可 能 不 想 每 次 调用 函数 时 都 指定 模块 名 。 在 
这 种 情况 下 ， 可 使 用 命令 import 的 如 下 变种 : 
>>> from math import sqrt 


>>> sqrt(9) 
3.0 


通过 使 用 命令 import 的 变种 from module import function, 可 在 调用 函数 时 不 指定 模块 前 级 。 














提示 “事实 上 ， 可 使 用 变量 来 引用 函数 ( 以 及 其 他 大 部 分 Python 元 素 )。 执 行 赋值 语句 foo = 
math.sqrt 后 ， 就 可 使 用 foo 来 计算 平方 根 。 例 如 ，foo(4) 的 结果 为 2.0。 


1.8.1 cmath 和 复数 
函数 sqrt 用 于 计算 平方 根 。 下 面 来 看 看 向 它 提 供 一 个 负数 的 情况 : 


>>> from math import sqrt 
>>> sqrt(-1) 
Traceback (most recent call last): 


ValueError: math domain error 


在 有 些 平台 上 ， 结 果 如 下 : 


>>> sqrt(-1) 
nan 
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注意 nan 具 有 特殊 含义 ， 指 的 是 “ 非 数 值 ”( not a number )。 


如 果 我 们 坚持 将 值 域 限定 为 实数 ， 并 使 用 其 近似 的 浮 点 数 实现 ， 就 无 法 计算 负数 的 平方 根 。 
负数 的 平方 根 为 虚数 ， 而 由 实 部 和 虚 部 组 成 的 数 为 复数 。Python 标 准 库 提供 了 一 个 专门 用 于 处 理 
复数 的 模块 。 

>>> import cmath 

>>> cmath.sqrt(-1) 

匡 

注意 到 这 里 没有 使 用 from ... import ...。 如 果 使 用 了 这 种 import 命 令 ， 将 无 法 使 用 常规 函 
数 sqrt。 类 似 这 样 的 名 称 冲 突 很 隐蔽 ， 因 此 除非 必须 使 用 from 版 的 import 命 令 ， 否 则 应 坚持 使 用 
常规 版 import 命 令 。 

1j 是 个 虚数 ， 虚 数 都 以 j (或 ] ) 结尾 。 复 数 算术 运算 都 基于 如 下 定义 : -1 的 平方 根 为 1j。 这 
里 不 深入 探讨 这 个 主题 ， 只 举 一 个 例子 来 结束 对 复数 的 讨论 : 

>>> (1 + 3j) * (9 + 4j) 

(-3 + 31j) 


从 这 个 示例 可 知 ，Python 本 身 提供 了 对 复数 的 支持 。 














注意 Python 没 有 专门 表示 虚数 的 类 型 ， 而 将 虚数 视 为 实 部 为 零 的 复数 。 


1.8.2” 回 到 未 来 


据说 Python 之 父 Guido van Rossum 有 一 台 时 光 机 ， 因 为 这 样 的 情况 出 现 了 多 次 : 大 家 要 求 
Python 提供 某 项 功能 时 ， 却 发 现 这 项 功能 早已 实现 。 当 然 ， 并 非 什么 人 都 能 进入 这 人 台 时 光 机 ， 不 
过 Guido 很 体贴 , 通过 神奇 模块 ”future _ 让 Python 具备 了 时 光 机 的 部 分 功能 。 对 于 Python 当前 不 
支持 ， 但 未 来 将 成 为 标准 组 成 部 分 的 功能 ， 你 可 从 这 个 模块 进行 导入 。 这 一 点 你 在 1.3 节 已 经 见 
识 过 ， 本 书后 面 也 将 经 常 遇 到 这 个 模块 。 


1.9 保存 并 执行 程序 


交互 式 解释 器 是 Python 的 亮点 之 一 ， 它 让 你 能 够 实时 地 测试 解决 方案 以 及 尝试 使 用 Python。 
要 了 解 隐藏 在 背后 的 工作 原理 ， 只 需 尝试 使 用 即 可 ! 然而 ， 等 你 退出 交互 式 解 释 器 时 ,你 在 其 中 
编写 的 所 有 代码 都 将 丢失 。 你 的 终极 目标 是 编写 自己 和 他 人 都 能 运行 的 程序 。 本 节 将 介绍 如 何 达 
成 这 种 目标 。 

首先 ， 你 需要 一 个 文本 编辑 器 最 好 是 专门 用 于 编程 的 〈 不 推荐 使 用 Microsoft Word 之 类 
的 软件 , 但 如 果 你 使 用 的 是 这 样 的 软件 , 务必 以 纯 文本 的 方式 保存 代码 )。 如 果 你 使 用 的 是 IDLE， 
那 就 太 幸运 了 。 在 这 种 情况 下 ， 只 需 选 择 菜 单 File 一 New File。 这 将 新 建 一 个 编辑 器 窗口 ， 其 中 
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没有 交互 式 提示 符 。 首 先 ， 输 入 如 下 代码 : -a 
print("Hello, world!") 
接 下 来 ,选择 菜单 File 一 Save 保 存 程序 ( 其 实 就 是 一 个 纯 文本 文件 ),。 务必 将 文件 存储 在 以 后 
能 够 找到 的 地 方 ， 并 指定 合理 的 文件 名 ， 如 hello.py( 扩展 名 .py 很 重要 )。 
保存 好 了 吗 ? 请 不 要 关闭 包含 程序 的 窗口 。 如 果 关 闭 了 ， 选 择 菜单 File 一 Open 重 新 打开 。 现 
在 可 以 运行 这 个 程序 了 ， 方 法 是 选择 菜单 Run-*Run Module。( 如 果 你 使 用 的 不 是 IDLE， 请 参阅 
下 一 他， 了 解 如 何 从 命令 提示 符 运行 程序 。) 
结果 如 何 呢 ? 在 解释 器 窗口 中 打印 了 Hello，world! ， 这 正 是 我 们 想 要 的 结果 。 根 据 你 使 用 
的 版 本 ， 解 释 需 提示 符 可 能 消失 ， 要 让 它 重 新 出 现 ， 可 在 解释 咒 窗 口中 按 回 车 键 。 
接 下 来 ， 将 脚本 扩展 成 下 面 这 样 : 
name = input("What is your name? ") 
print("Hello, " + name + "1") 


如 果 你 运行 这 个 脚本 别 忘 了 先 保存 )， 将 在 解释 器 窗口 中 看 到 如 下 提示 信息 : 
hat is your name? 

输入 你 的 名 字 〈 如 Gumby ) 并 按 回 车 键 ， 你 将 看 到 类 似 于 下 面 的 内 容 : 

Hello, Gumby! 

























































































强大 的 海龟 绘图 法 





编写 简单 示例 时 ，print 语 句 很 有 用 ， 因 为 几乎 在 任何 地 方 都 可 使 用 它 。 如 果 你 要 尝试 提 
供 更 有 趣 的 输出 ， 应 考虑 使 用 模块 turtle， 它 实现 了 海龟 绘图 法 。 如 果 你 正在 运行 IDLE， 就 
可 使 用 这 个 模块 ， 它 让 你 能 够 绘制 图 形 ( 而 不 是 打印 文本 ) 。 通 常 ， 应 避免 导入 模块 中 所 有 的 
名 称 ， 但 尝试 使 用 海龟 绘图 法 时 ， 这 样 做 可 提供 极 大 的 方便 。 

from turtle import * 

确定 需要 使 用 哪些 函数 后 ， 可 回 过 头 去 修改 import 语 句 ， 以 便 只 导入 这 些 函 数 。 

海 包 绘图 法 的 理念 源 自 形 如 海龟 的 机 器 人 。 这 种 机 器 人 可 前 进 和 后 退 ， 还 可 向 左 和 向 右 
旋转 一 定 的 角度 。 另 外 ， 这 种 机 器 人 还 携带 一 只 铅笔 ， 可 通过 抬 起 或 放下 来 控制 铅笔 在 什么 
时 候 接触 到 脚下 的 纸张 。 模 块 turtle 让 你 能 够 模拟 这 样 的 机 器 人 。 人 例如， 下面 的 代码 演示 了 
如 何 绘制 一 个 三 角形 : 

forward(100) 

left(120) 

forward(100) 

left(120) 
forward(100) 

如 果 你 运行 这 些 代 码 ， 将 出 现 一 个 新 窗口 ， 其 中 有 一 个 箭头 形 “ 海 龟 ”不 断 地 移动 ， 并 
在 身后 留 下 移动 轨迹 。 要 将 铅笔 抬 起 ， 可 使 用 penup(); 要 将 铅笔 重新 放下 ， 可 使 用 
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pendown()。 要 了 解 其 他 的 命令 ,请 参阅 “Python 库 参考 手册 ”的 相关 部 分 ( https://docs.python. 
org/3/library/turtle.html ) 。 和 要 了 解 如 何 绘图 ， 可 尝试 在 网 上 搜索 海龟 绘图 法 (turtle graphic ) 。 
学 习 更 多 的 概念 后 ， 你 可 能 想 用 海龟 绘图 法 替换 平淡 的 print 语 句 。 在 尝试 使 用 海龟 绘图 法 的 
过 程 中 ， 你 很 快 就 会 发 现 需 要 使 用 后 面 将 介绍 的 一 些 基 本 编程 结构 。 例 如 ， 如 何在 前 面 的 示 
例 中 避免 反复 调用 命令 fofward 和 1left， 如 何 绘制 八角 形 (而 不 是 三 角形 ) 以 及 如 何以 尽 可 能 
少 的 代码 绘制 多 个 边 数 各 不 相同 的 正 多 边 形 。 


1.9.1 从 命令 提示 符 运 行 Python 脚本 

实际 上 ， 运 行程 序 的 方式 有 多 种 。 首 先 ， 假 定 你 打开 了 DOS 窗 口 或 UNIX shell， 并 切换 到 了 
Python 可 执行 文件 (在 Windows 中 为 python.exe， 在 UNIX 中 为 python ) 或 将 该 可 执行 文件 所 在 的 
目录 加 入 到 了 环境 变量 PATH 中 ( 仅 适用 于 Windows ) "”。 另 外 ， 假 定 前 一 节 的 脚本 (hello.py ) 存 
储 在 当前 目录 下 。 满 足 上 述 条 件 后 ， 就 可 在 Windows 中 使 用 如 下 命令 来 执行 这 个 脚本 : 

C:\>python hello.py 

在 UNIX 系 统 中 ， 可 使 用 如 下 命令 : 

$ python hello.py 


如 你 所 见 ， 命 令 是 一 样 的 ， 只 是 系统 提示 符 不 同 。 
1.9.2 ”让 脚本 像 普 通 程 序 一 样 


在 有 些 情况 下 ， 你 希望 能 够 像 执 行 其 他 程序 ( 如 Web 浏 览 咒 或 文本 编辑 器 ) 一 样 执行 Python 
脚本 ， 而 无 需 显 式 地 使 用 Python 解释 器 。UNIX 提 供 了 实现 这 种 目标 的 标准 方式 : 让 脚本 的 第 一 
行 以 字符 序列 #! ( 称 为 pound bang 或 shebang ) 开始 ,并 在 它 后 面 指定 用 于 对 脚本 进行 解释 的 程序 
(这 里 是 Python ) 的 绝对 路 径 。 即 便 你 对 这 一 点 不 太 明 白 ， 只 需 将 下 面 的 代码 作为 脚本 的 第 一 行 ， 
就 可 在 UNIX 中 轻松 运行 脚本 

#1/usr/bin/env python 

不 管 Python 库 位 于 什么 地 方 ,这 都 将 让 你 能 够 像 运 行 普通 程序 一 样 运行 脚本 。 如 果 你 安装 了 
多 个 版 本 的 Python， 可 用 更 具体 的 可 执行 文件 名 ( 如 python3 ) 蔡 换 python。 

要 像 普通 程序 一 样 运行 脚本 ， 还 必须 将 其 变 成 可 执行 的 : 

$ chmod a+x hello.py 

现在 ， 可 以 像 下 面 这 样 来 运行 它 ( 假定 当前 目录 包含 在 执行 路 径 中 ): 

$ hello.py 

如 果 这 不 管用 , 请 尝试 使 用 ./hello.py,， 这 在 当前 目录 (. ) 未 包含 在 执行 路 径 中 时 也 管用 ( 负 
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Q 如 果 你 看 不 懂 这 句 话 ， 可 以 跳 过 1.9.1 节 ， 因 为 这 一 节 的 内 容 不 是 非得 掌握 的 。 
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责 的 系统 管理 员 会 告诉 你 执行 路 径 是 什么 )。 

如 有 果 你 愿意 ， 可 对 文件 进行 重 命名 并 删除 扩展 名 .py， 使 其 看 起 来 更 像 普通 程序 。 

如 果 双 击 会 如 何 呢 

在 Windows 中 , 扩展 名 .py 是 让 脚本 像 普通 程序 一 样 的 关键 所 在 。 请 尝试 双击 前 一 节 保 存 的 文 
件 hello.py。 如 果 正 确 地 安装 了 Python， 这 将 打开 一 个 DOS 窗 口 ， 其 中 包含 提示 信息 What is your 
name?"。 然 而 ,这 样 运 行程 序 存在 一 个 问题 : 输入 名 字 后 ,程序 窗口 将 立即 关闭 ,你 根本 来 不 及 
看 清 结果 。 这 是 因为 程序 结束 后 窗口 将 立即 关闭 。 尝 试 修改 脚本 ， 在 末尾 添加 如 下 代码 行 : 

input("Press <enter>") 

现在 运行 这 个 程序 并 输入 名 字 后 ，DOS 窗 口 将 包含 如 下 内 容 : 


What is your name? Gumby 
Hello, Gumby! 
Press <enter> 


等 你 按 回 车 键 后 ， 窗 口 将 立即 关闭 ， 因 为 程序 结束 了 。 







































































1.9.3 注释 


在 Python 中 ， 井 号 (#) 比较 特殊 : 在 代码 中 ， 井 号 后 面 到 行 尾 的 所 有 内 容 都 将 被 忽略 。( 这 
也 是 Python 解释 器 未 被 前 面 的 usrbin/env 卡 住 的 原因 所 在 。) 下 面 是 一 个 示例 : 

# 打印 圆 的 周 长 : 

print(2 * pi * radius) 
第 一 行为 注释 。 注 释 让 程序 更 容易 理解 : 对 其 他 人 来 说 如 此 , 在 程序 编写 者 回 过 头 来 阅读 代 
码 时 亦 如 此 。 据 说 程序 员 应 遵守 的 首要 戒律 是 “ 涩 应 注释 "， 但 是 一 些 不 那么 宽容 的 程序 员 的 座 
右 铭 是 “如 果 写 起 来 难 ， 理 解 起 来 必然 也 难 ”。 注 释 务必 言 而 有 物 ， 不 要 重复 去 讲 通 过 代码 很 容 
易 获 得 的 信息 。 无 用 而 重复 的 注释 还 不 如 没有 。 例 如 ， 下 述 代码 中 的 注释 根本 就 是 多 余 : 

# 获取 用 户 的 名 字 : 

user name = input("What is your name?") 

在 任何 情况 下 ， 都 应 确保 代码 即便 没有 注释 也 易于 理解 。 所 幸 Python 是 一 种 卓越 的 语言 ， 能 
让 人 很 容易 编写 出 易于 理解 的 程序 。 


1.10 “字符 串 


前 一 节 的 代码 "Hello，"”+ name +"!" 是 什么 意思 呢 ?” 本 章 的 第 一 个 程序 只 包含 如 下 代码 : 
print("Hello, world!") 
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Q@ 是 否 会 这 样 取决 于 你 使 用 的 操作 系统 以 及 安装 的 Python 解 释 器 。 例如 , 在 macOS 中 , 如果 文件 是 使 用 IDLE 存 储 的 ， 
双击 文件 将 只 会 在 IDLE 代 码 编辑 器 中 打开 它 。 
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程 教 程 通常 以 类 似 的 程序 开篇 ， 问 题 是 我 还 未 全 面前 述 其 工作 原理 。 你 已 掌握 了 print 语 
句 的 基本 知识 ( 后 面 将 更 详细 地 介绍 它 ), 但 "Hello, wor1d! "是 什么 呢 ? 这 是 一 个 字符 串 ( string )。 
几乎 所 有 真实 的 Python 程 序 中 都 有 字符 串 的 身影 。 字符 串 用 途 众 多 , 但 主要 用 途 是 表示 一 段 文本 ， 
如 感叹 句 “Hello, world!”。 












































1.10.1 单 引 号 字符 串 以 及 对 引号 转 义 
与 数 一 样 ， 字 符 串 也 是 值 : 


>>> "Hello, world!" 
‘Hello, world!' 
在 这 个 示例 中 ， 有 一 点 可 能 让 你 颇 感 意外 : Python 在 打印 字符 串 时 ， 用 单 引号 将 其 括 起 ， 而 
我 们 使 用 的 是 双 引 号 。 这 有 什么 差别 吗 ? 其 实 没有 任何 差别 。 
>>> 'Hello, world!’ 
‘Hello, world!' 

这 里 使 用 的 是 单 引号 ,结果 却 完 全 相同 。 既 然 如 此 ,为 何 同时 支持 单 引 号 和 双 引 号 呢 ?” 因 为 
在 有 些 情况 下 ， 这 可 能 会 有 用 。 

>>> "Let's gol!" 

"Let's gol" 

>>> '"Hello, world!" she Said 

'"Hello, world!" she said’ 

在 上 述 代 码 中 ， 第 一 个 字符 串 包含 一 个 单 引号 ( 就 这 里 而 言 ， 可 能 称 之 为 撤 号 更 合适 )， 
此 不 能 用 单 引 号 将 整个 字符 串 括 起 ， 和 否则 解释 器 将 报错 (做 出 这 样 的 反应 是 正确 的 ) 


>>> Let s 8ol 
SyntaxError: invalid syntax 











在 这 里 ,字符 串 为 'Let' ， 因 此 Python 不 知道 如 何 处 理 后 面 的 s( 更 准确 地 说 是 当前 行 余下 的 
内 容 )。 

第 二 个 字符 串 包含 双 引 号 ， 因 此 必须 使 用 单 引号 将 整个 字符 串 括 起 ,原因 和 前 面 一 样 。 实 
际 上 ， 并 非 必须 这 样 做 ( 这 样 做 只 是 出 于 方便 考虑 )。 可 使 用 反 斜 杜 (、) 对 引号 进行 转 义 ， 如 
下 所 示 : 

>>> 'Let\'s go 


"Let's go 上 


这 样 Python 将 明白 中 间 的 引号 是 字符 串 的 一 部 分 ， 而 不 是 字符 串 结束 的 标志 。 虽 然 如 此 ， 
Python 打印 这 个 字符 串 时 ， 还 是 使 用 了 双 引 号 将 其 括 起 。 与 你 预期 的 一 样 ， 对 于 双 引 号 可 采用 同 
样 的 处 理 手法 。 

>>> "\"Hello, world!\" she said" 

'"Hello, world!" she said’ 


像 这 样 对 引号 进行 转 义 很 有 用 ， 且 在 有 些 情况 下 必须 这 样 做 。 例 如 , 在 字符 串 同 时 包含 单 引 
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号 和 双 引 号 (如 'Let\'s say "Hello, world!"' ) 时 ， 如 果 不 使 用 反 斜 杠 进行 转 义 ， 该 如 何 办 呢 ? 


注意 厌烦 了 反 斜 村 ? 你 在 本 章 后 面 将 看 到 ， 在 大 多 数 情况 下 ， 可 通过 使 用 长 字符 串 和 原始 字 
符 囊 (可 结合 使 用 这 两 种 字符 囊 ) 来 避免 使 用 反 斜 杠 。 


1.10.2 ”拼接 字符 串 
为 处 理 前 述 不 太 正 常 的 示例 ， 来 看 另 一 种 表示 这 个 字符 串 的 方式 : 


>>> "Let's say " '"Hello, world!™"' 
‘Let\'s say "Hello, world!™" 


我 依次 输入 了 两 个 字符 串 ， 而 Python 自 动 将 它们 拼接 起 来 了 (合并 为 一 个 字符 串 )。 这 种 机 
制 用 得 不 多 ， 但 有 时 候 很 有 用 。 然 而 ， 仅 当 你 同时 依次 输入 两 个 字符 串 时 ， 这 种 机 制 才 管 用 。 

>>> x = "Hello, " 

>>> y = "world!" 


>>> X y 
SyntaxError: invalid syntax 


换 而 言 之 , 这 是 一 种 输入 字符 串 的 特殊 方式 ,而 非 通 用 的 字符 串 拼 接 方 法 。 那 么 应 该 如 何 拼 
接 字 符 串 呢 ? 就 像 将 数 相 加 一 样 ， 将 它们 相 加 : 

>>> "Hello, " + "world!" 

‘Hello, world!' 

>>> x = "Hello, " 

>>> y = "world!" 


>>>x+y 
"Hello，wor1dl 























1.10.3 ”字符 串 表 示 str 和 repr 





Python 打印 所 有 的 字符 串 时 ， 都 用 引号 将 其 括 起 。 你 可 能 通过 前 面 的 示例 发 现 了 这 一 点 。 这 
是 因为 Python 打印 值 时 ， 保 留 其 在 代码 中 的 样子 ， 而 不 是 你 希望 用 户 看 到 的 样子 。 但 如 果 你 使 用 
print， 结 果 将 不 同 。 

>>> "Hello, world!" 

'Hello, world!' 


>>> print("Hello, world!") 
Hello, world! 


如 果 再 加 上 表示 换行 符 的 编码 \n， 差 别 将 更 明显 。 


>>> "Hello, \nworld!" 
"Hello, Anwor1dl 

>>> print("Hello, \nworld!") 
Hello, 

world! 
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通过 两 种 不 同 的 机 制 将 值 转换 成 了 字符 串 。 你 可 通过 使 用 函数 str 和 repr" 直接 使 用 这 两 种 机 
制 。 使 用 str 能 以 合理 的 方式 将 值 转换 为 用 户 能 够 看 懂 的 字符 串 。 例 如 ， 尽 可 能 将 特殊 字符 编码 
转换 为 相应 的 字符 。 然 而 ， 使 用 repr 时 ， 通 常会 获得 值 的 合法 Python 表达 式 表 示 。 

>>> print(repr("Hello, \nworld!")) 

"Hello, \nworld!' 

>>> print(str("Hello, \nworld!")) 


Hello, 
world! 


























1.10.4 长 字符 串 、 原 始 字 符 串 和 字 节 


有 一 些 独特 而 有 用 的 字符 串 表 示 方 式 。 例 如 ,有 一 种 独特 的 语法 可 用 于 表示 包含 换行 符 或 反 
和 斜 杠 的 字符 串 ( 长 字符 串 和 原始 字符 串 )。 对 于 包含 特殊 符号 的 字符 串 ，Python 2 还 提供 了 一 种 专 
用 的 表示 语法 ， 结 果 为 Unicode 字 符 串 。 这 种 语法 现在 依然 管用 ， 但 是 多 余 ， 因 为 在 Python 3 中 ， 
所 有 的 字符 串 都 是 Unicode 字 符 串 。Python 3 还 引入 了 一 种 新 语法 ,用 于 表示 大 致 相当 于 老式 字符 
串 的 字 节 对 象 。 你 将 看 到 ， 在 处 理 Unicode 编 码 方面 ， 这 种 对 象 依然 扮演 着 重要 的 角色 。 

1. 长 字符 串 

要 表示 很 长 的 字符 串 ( 跨越 多 行 的 字符 串 )， 可 使 用 三 引号 〈 而 不 是 普通 引号 )。 


print('''This is a very long string. It continues here. 
And it's not over yet. "Hello, world!" 
Still here.''') 


还 可 使 用 三 个 双 引 号 ， 如 """ like this"""。 请 注意 ， 这 让 解释 器 能 够 识别 表示 字符 串 开始 
和 结束 位 置 的 引号 ， 因 此 字符 串 本 身 可 包含 单 引号 和 双 引 号 ， 无 需 使 用 反 斜 杠 进行 转 义 。 












































提示 常规 字符 囊 也 可 横路 多 行 。 只 要 在 行 尾 加 上 反 儿 杠 ， 反 斜 村 和 搁 行 符 将 被 转 义 ， 即 被 名 
略 。 例 如 ， 如 果 编 写 如 下 代码 : 
print("Hello, \ world!") 
它 将 打印 Hello，world!。 这 种 处 理 手法 也 适用 于 表达 式 和 语句 。 
>>> 1+2+A\ 
4+5 
12 
>>> print \ 


('Hello, world') 
Hello, world 


2. 原始 字符 串 
原始 字符 串 不 以 特殊 方式 处 理 反 斜 枉 ， 因 此 在 有 些 情况 下 很 有 用 ”。 在 常规 字符 串 中 ， 反 和 斜 
杠 扮演 着 特殊 角色 : 它 对 字符 进行 转 义 ， 让 你 能 够 在 字符 串 中 包含 原本 无 法 包含 的 字符 。 例 如 ， 














实际 上 ， 像 int 一 样 ，str 也 是 一 个 类 ， 但 repz 是 一 个 函数 。 
@) 编写 正则 表达 式 时 ， 原 始 字符 串 很 有 8 用， 这 将 在 第 10 章 详细 介绍 。 
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你 已 经 看 到 可 使 用 \n 表 示 换 行 符 ， 从 而 像 下 面 这 样 在 字符 串 中 包含 换行 符 : 


>>> print('Hello, \nworld!') 
Hello, 
world! 


这 通常 挺 好 ,但 在 有 些 情况 下 ， 并 非 你 想 要 的 结果 。 如 果 你 要 在 字符 串 中 包含 \n 呢 ?例如 ， 
你 可 能 要 在 字符 串 中 包含 DOS 路 径 C:nowhere。 


>>> path = 'C:\nowhere' 
>>> path 
'C:\nowhere’ 


这 好 像 没 问题 但 如 果 将 其 打印 出 来 ， 就 会 出 现 问 题 。 
>>> print(path) 
Cc 四 











oere 
这 并 非 你 想 要 的 结果 ， 不 是 吗 ? 那 该 怎么 办 呢 ?” 可 对 反 斜 杠 本 身 进行 转 义 。 


>>> print('C:\\nowhere') 
C: \nowhere 


这 很 好 ,但 对 于 很 长 的 路 径 ， 将 需要 使 用 大 量 的 反 斜 杠 。 

path = 'C:\\Program Files\\fnord\\foo\\bar\\baz\\frozz\\bozz" 

在 这 样 的 情况 下 ,原始 字符 串 可 派 上 用 场 ， 因 为 它们 根本 不 会 对 反 斜 杠 做 特殊 处 理 ， 而 是 让 
字符 串 包含 的 每 个 字符 都 保持 原样 。 


>>> print(r'C:\nowhere' 
C: \nowhere 

>>> print(r'C:\Program Files\fnord\foo\bar\baz\frozz\bozz') 
C:\Program Files\fnord\foo\bar\baz\frozz\bozz 


如 你 所 见 ， 原 始 字 符 串 用 前 级 r 表 示 。 看 起 来 可 在 原始 字符 串 中 包含 任何 字符 ， 这 大 致 是 正 
确 的 。 一 个 例外 是 , 引号 需要 像 通常 那样 进行 转 义 , 但 这 意味 着 用 于 执行 转 义 的 反 斜 杜 也 将 包含 
在 最 终 的 字符 串 中 。 


>>> print(r'Let\'s go!') 
Let\'s go! 


另外 , 原始 字符 串 不 能 以 单个 反 斜 杠 结 尾 。 换 而 言 之 ,原始 字符 串 的 最 后 一 个 字符 不 能 是 反 
斜 杜 ， 除 非 你 对 其 进行 转 义 ( 但 进行 转 义 时 ， 用 于 转 义 的 反 斜 杠 也 将 是 字符 串 的 一 部 分 )。 根 据 
前 一 个 示例 ,这 一 点 应 该 是 显而易见 的 。 如 果 最 后 一 个 字符 ( 位 于 结束 引号 前 面 的 那个 字符 ) 为 
反 斜 杠 ， 且 未 对 其 进行 转 义 ，Python 将 无 法 判断 字符 串 是 否 到 此 结束 。 


>>> print(r"This is illegal\") 
SyntaxError: EOL while scanning string literal 


这 合乎 情理 ,但 如 果 要 指定 以 反 斜 杠 结尾 的 原始 字符 囊 ( 如 以 反 斜 杜 结尾 的 DOS 路 径 )， 该 
如 何 办 呢 ? 本 节 介绍 了 大 量 技巧 ,应 该 能 够 帮助 你 解决 这 个 问题 , 但 基本 技巧 是 将 反 斜 杠 单独 作 
为 一 个 字符 串 ， 下 面 是 一 个 简单 的 示例 : 
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>>> print(r'C:\Program Files\foo\bar' '\\') 
C:\Program Files\foo\bar\ 


请 注意 ， 指 定 原始 字符 串 时 ， 可 使 用 单 引 号 或 双 引 号 将 其 括 起 ， 还 可 使 用 三 引号 将 其 括 起 。 

3. Unicode、bytes 和 bytearray 

Python 字符 串 使 用 Unicode 编 码 来 表示 文本 。 对 大 多 数 简单 程序 来 说 ， 这 一 点 是 完全 透明 的 ， 
因此 如 果 你 愿意 ， 可 跳 过 本 节 ， 等 需要 时 再 学 习 这 个 主题 。 然 而 ， 鉴 于 处 理 字 符 串 和 文本 文件 的 
Python 代 码 很 多 ， 大 致 浏览 一 下 本 节 至 少 不 会 有 什么 坏处 。 

大 致 而 言 ， 每 个 Unicode 字 符 都 用 一 个 码 点 (code point ) 表示 ， 而 码 点 是 Unicode 标 准 给 每 个 
字符 指定 的 数字 。 这 让 你 能 够 以 任何 现代 软件 都 能 识别 的 方式 表示 129 个 文字 系统 中 的 12 万 个 以 
上 的 字符 。 当 然 ， 鉴 于 计算 机 键盘 不 可 能 包含 几 十 万 个 键 ， 因 此 有 一 种 指定 Unicode 字 符 的 通用 
机 制 : 使 用 16 或 32 位 的 十 六 进 制 字面 量 (分 别 加 上 前 缀 \u 或 \U ) 或 者 使 用 字符 的 Unicode 名 称 
( \N{name} )。 

>>> "\u00C6" 

‘Ff 
>>> "\U0001F60A" 

‘© 


>>> "This is a cat: \N{Cat}" 
‘This is a cat: 强 


要 获悉 字符 的 Unicode 码 点 和 名 称 ， 可 在 网 上 使 用 有 关 该 字符 的 描述 进行 搜索 ， 也 可 参阅 特 
定 的 网 站 ， 如 http://unicode-table.com。 

Unicode 的 理念 很 简单 ， 却 带 来 了 一 些 挑战 ， 其 中 之 一 是 编码 问题 。 在 内 存 和 磁盘 中 ， 所 有 
对 象 都 是 以 二 进 制 数字 (0 和 1 ) 表示 的 〈 这 些 数字 每 8 个 为 一 组 ， 即 1 字 节 )， 字 符 串 也 不 例外 。 
在 诸如 C 等 编程 语言 中 ， 这 些 字 节 完全 暴露 ， 而 字符 串 不 过 是 字 节 序列 而 已 。 为 与 C 语 言 互 操作 
以 及 将 文本 写 和 文件 或 通过 网 络 套 接 字 发 送出 去 , Python 提供 了 两 种 类 似 的 类 型 : 不 可 变 的 bytes 
和 可 变 的 bytearray。 如 果 需 要 ， 可 直接 创建 bytes 对 象 ( 而 不 是 字符 串 )， 方 法 是 使 用 前 缀 b: 


>>> b'Hello, world!' 
b'Hello, world!' 


然而 ，1 字 节 只 能 表示 256 个 不 同 的 值 ， 离 Unicode 标 准 的 要 求 差 很 远 。Python bytes 字 面 量 只 
支持 ASCII 标 准 中 的 128 个 字符 ， 而 余下 的 128 个 值 必须 用 转 义 序列 表示 ， 如 \xfo 表 示 十 六 进 制 值 
0xf0( 即 240 )。 

唯一 的 差别 好 像 在 于 可 用 的 字母 表 规 模 ， 但 实际 上 并 非 完 全 如 此 。 乍 一 看 ， 好 像 ASCII 和 
Unicode 定 义 的 都 是 非 负 整数 和 字符 之 间 的 映射 ， 但 存在 细微 的 差别 : Unicode 码 点 是 使 用 整数 定 
义 的 ， 而 ASCII 字 符 是 使 用 对 应 的 数 及 其 二 进 制 编码 定义 的 。 这 一 点 好 像 无 关 紧 要 ， 原 因 之 一 是 
整数 0 ~ 255 和 8 位 二 进 制 数 之 间 的 映射 是 固定 的 ， 几 乎 没有 任何 机 动 空间 。 问 题 是 超过 1 字 节 后 ， 
情况 就 不 那么 简单 了 : 直接 将 每 个 码 点 表示 为 相应 的 二 进 制 数 可 能 不 再 可 行 。 这 是 因为 不 仅 存在 
字 节 顺序 的 问题 ( 即便 对 整数 值 进行 编码 ， 也 会 遇 到 这 样 的 问题 )， 而 且 还 可 能 浪费 空间 : 如 果 
对 于 每 个 码 点 都 使 用 相同 数量 的 字 节 进行 编码 , 就 必须 考虑 到 文本 可 能 包含 安 那托 利 亚 象形 文字 
或 皇家 亚 兰 字母 。 有 一 种 Unicode 编 码 标准 是 基于 这 种 考虑 的 ， 它 就 是 UTF-32 (32 位 统一 编码 转 
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换 格式 ，Unicode Transformation Format 32 bits )， 但 如 果 你 主要 处 理 的 是 使 用 互联 网 上 常见 语言 
书写 的 文本 ， 那 么 使 用 这 种 编码 标准 将 很 浪费 空间 。 

然而 ， 有 一 种 非常 巧妙 的 替代 方式 : 不 使 用 全 部 32 位 ， 而 是 使 用 变 长 编码 ， 即 对 于 不 同 的 字 
符 ， 使 用 不 同 数量 的 字 节 进行 编码 。 这 种 编码 方式 主要 出 自 计 算 机 先锋 Kenneth Thompson 之 手 。 
通过 使 用 这 种 编码 ， 可 节省 占用 的 空间 ， 就 像 摩尔 斯 码 使 用 较 少 的 点 和 短线 表示 常见 的 字母 ， 从 
而 减少 工作 量 一 样 "。 具 体 地 说 ,进行 单字 节 编 码 时 ,依然 使 用 ASCII 编 码 ， 以 便 与 较 旧 的 系统 兼 
容 ; 但 对 于 不 在 这 个 范围 内 的 字符 ， 使 用 多 个 字 节 ( 最 多 为 6 个 ) 进行 编码 。 下 面 来 使 用 ASCII、 
UTF-8 和 UTF-32 编 码 将 字符 串 转 换 为 bytes。 


>>> "Hello, world!".encode("ASCII") 

b'Hello, world!' 

>>> "Hello, world!".encode("UTF-8") 

b'Hello, world!' 

>>> "Hello, world!".encode("UTF-32") 
b'\xff\xfe\xo0\xOoH\x00\x00\x00e\x00\x00\x001\x00\x00\x001\x00\x00\Xx000\Xx00\x00\x00, \x00\ 
X00\xX00 \x00\x00\xOOWw\xX00\x00\x000\X00\Xx00\x0O0r\x00\x00\x001\x00\x00\x00d\x00\x00\x00!\x00\ 
X00\x00" 


从 中 可 知 ,使 用 前 两 种 编码 的 结果 相同 ,但 使 用 最 后 一 种 编码 的 结果 长 得 多 。 青 来 看 一 个 
示例 : 


>>> len("How long is this?".encode("UTF-8")) 
47 
>>> len("How long is this?".encode("UTF-32")) 
72 


只 要 字符 串 包含 较 怪异 的 字符 ，ASCII 和 UTF-8 之 间 的 差别 便 显现 出 来 了 : 


>>> "Haell3, world!".encode("ASCII") 
Traceback (most recent call last): 





















































































































































UnicodeEncodeError: 'ascii' codec can't encode character '\xe6' in position 1: ordinal not 
in range(128) 


斯 堪 的 纳 维 亚 字母 没有 对 应 的 ASCI 编 码 。 如 果 必 须 使 用 ASCIH 编 码 ( 这 样 的 情况 肯定 会 遇 
到 )， 可 向 encode 提 供 另 一 个 实 参 ， 告诉 它 如 何 处 理 错误 。 这 个 参数 默认 为 strict， 但 可 将 其 指 
定 为 其 他 值 ， 以 忽略 或 替换 不 在 ASCI 表 中 的 字符 。 


>>> "Haell3, world!".encode("ASCIIT", "ignore") 
b'H1ll, wrld!’ 
>>> "Haell3, world!".encode("ASCII", "replace") 
b'H?11?, w?rld!' 
>>> "Haell3, world!".encode("ASCII", "backslashreplace") 
b'H\\xe6ll\\xe5, w\\xf8rld!' 

>>> "Haell3, world!".encode("ASCII", "xmlcharrefreplace") 
b' HB#230; 118#229; ，w8&#248;T1dl' 


几乎 在 所 有 情况 下 ， 都 最 好 使 用 UTF-8。 
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有 实 上 ， 它 也 是 默认 使 用 的 编码 。 





















































人 这 是 一 种 重要 的 压缩 方法 ， 为 多 个 现代 压缩 工具 使 用 的 霍 夫 曼 编码 所 采用 。 
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>>> "Hell3, world!".encode() 
b'H\xc3\xa6ll\xc3\xa5, w\xc3\xb8rld!’ 


这 相 比 于 Hello, world! ， 编 码 结果 要 长 些 ; 但 使 用 UTF-32 编 码 时 ， 结 果 一 样 长 。 
可 将 字符 串 编码 为 bytes， 同 样 也 可 将 bytes 解 码 为 字符 串 。 


>>> b'H\xc3\xa6ll\xc3\xa5, w\xc3\xb8rld!'.decode() 
"Hal13，WOT1d1 


与 前 面 一 样 ， 默 认 编 码 也 是 UTF-8。 你 可 指定 其 他 编码 ， 但 如 果 指 定 的 编码 不 正确 ， 将 出 现 
错误 消息 或 得 到 一 堆 乱 码 。bytes 对 象 本 身 并 不 知道 使 用 的 是 哪 种 编码 ， 因 此 你 必须 负责 跟踪 这 
一 点 。 

可 不 使 用 方法 encode 和 decode， 而 直接 创建 bytes 和 str ( 即 字符 串 ) 对 象 ， 如 下 所 示 : 


>>> bytes("Hellé, world!", encoding="utf-8") 
b'H\xc3\xa6ll\xc3\xa5, w\xc3\xb8rld!’ 

>>> str(b'H\xc3\xa6ll\xc3\xa5, w\xc3\xb8rld!', encoding="utf-8") 
"Hal13，WOT1d1 


这 种 方法 更 通用 一 些 ， 在 你 不 知道 类 似 于 字符 串 或 bytes 的 对 象 属于 哪个 类 时 ， 使 用 这 种 方 
法 也 更 管用 。 一 个 通用 规则 是 ， 不 要 做 过 于 严格 的 假设 。 
编码 和 解码 的 最 重要 用 途 之 一 是 ,将 文本 存储 到 磁盘 文件 中 。 然 而 ，Python 提 供 的 文件 读 写 
机 制 通常 会 替 你 完成 这 方面 的 工作 ! 只 要 文件 使 用 的 是 UTF-8 编 码 ， 就 无 需 操心 编码 和 解码 的 问 
题 。 但 如 果 原 本 正常 的 文本 变 成 了 乱码 ， 就 说 明文 件 使 用 的 可 能 是 其 他 编码 。 在 这 种 情况 下 ， 对 
导致 这 种 问题 的 原因 有 所 了 解 将 大 有 神 益 。 如 果 你 想 更 详细 地 了 解 Python 中 的 Unicode ， 请 参阅 
在 线 文档 中 有 关 该 主题 的 HOWTO 部 分 "。 







































































































































































注意 源 代 码 也 将 被 编码 ， 且 默认 使 用 的 也 是 UTF-8 编 码 。 如 果 你 想 使 用 其 他 编码 ( 例如， 如果 
你 使 用 的 文本 编辑 器 使 用 其 他 编码 来 存储 源 代码 )， 可 使 用 特殊 的 注释 来 指定 。 
# -*- coding: encoding name -*- 


请 将 其 中 的 encoding name 替 换 为 你 要 使 用 的 编码 (大 小 写 都 行 )， 如 utf-8 或 latin-1。 








最 后 ，Python 还 提供 了 bytearray， 它 是 bytes 的 可 变 版 。 从 某 种 意义 上 说 ， 它 就 像 是 可 修改 
的 字符 串 一 一 常规 字符 串 是 不 能 修改 的 。 然 而 ，bytearray 其 实 是 为 在 幕后 使 用 而 设计 的 ， 因 此 
作为 类 字符 串 使 用 时 对 用 户 并 不 友好 。 例 如 ， 要 替换 其 中 的 字符 ， 必 须 将 其 指定 为 0 ~ 255 的 值 。 
因此 ， 要 插入 字符 ， 必 须 使 用 ord 获 取 其 序数 值 ( ordinal value )。 


>>> x = bytearray(b"Hello!") 
>>> x[1] = ord(b"u") 

>>> X 

bytearray(b'Hullo!') 




















人 请 参见 https:/docs.python.org/3/howto/unicode.html。 





1.11 小 结 


本 章 介绍 的 内 容 很 多 ， 先 来 看 看 你 都 学 到 了 什么 ， 再 接着 往 下 讲 。 

口 算法 : 算法 犹如 菜谱 ， 告 诉 你 如 何 完成 特定 的 任务 。 从 本 质 上 说 ,编写 计算 机 程序 就 是 
使 用 计算 机 能 够 理解 的 语言 ( 如 Python ) 描述 一 种 算法 。 这 种 对 机 器 友好 的 描述 被 称 为 程 
序 ， 主 要 由 表达 式 和 语句 组 成 。 

口 表达 式 : 表达 式 为 程序 的 一 部 分 ， 结 果 为 一 个 值 。 例 如 ，2 + 2 就 是 一 个 表达 式 ， 结 果 为 
4。 简 单 表达 式 是 使 用 运算 符 ( 如 + 或 % ) 和 函数 ( 如 pow ) 将 字面 值 (如 2 或 "Hello" ) 组 
合 起 来 得 到 的 。 通 过 组 合 简单 的 表达 式 ， 可 创建 复杂 的 表达 式 ， 如 (2 + 2) *(3 - 1)。 表 

口 变量 : 变量 是 表示 值 的 名 称 。 通 过 赋值 ， 可 将 新 值 赋 给 变量 ， 如 x = 2。 赋 值 是 一 种 语句 。 

口 语句: 语句 是 让 计算 机 执行 特定 操作 的 指示 。 这 种 操作 可 能 是 修改 变量 (通过 赋值 )、 将 

言 息 打印 到 屏幕 上 (如 print("Hello，worldl") )、 导 入 模块 或 执行 众多 其 他 任务 。 

口 函数 : Python 函数 类 似 于 数学 函数 ， 它 们 可 能 接受 参数 ， 并 返回 结果 ( 在 第 6 章 学 习 编 写 

自 定义 函数 时 ， 你 将 发 现 函 数 实 际 上 可 以 在 返回 前 做 很 多 事情 )。 

口 模块 : 模块 是 扩展 ， 可 通过 导入 它们 来 扩展 Python 的 功能 。 例 如 ， 模 块 math 包 含 多 个 很 有 

用 的 函数 。 

口 程序 : 你 通过 练习 学 习 了 如 何 编写 、 保 存 和 运行 Python 程序 。 

口 字符 串 : 字符 串 非常 简单 。 它 们 其 实 就 是 一 段 文本 , 其 中 的 字符 是 用 Unicode 码 点 表示 的 。 
然而 ， 对 于 字符 串 ， 需 要 学 习 的 知识 有 很 多 。 本 章 介 绍 了 很 多 表示 字符 串 的 方式 ， 第 3 章 
将 介绍 众多 字符 串 用 法 。 


1.11.1 本 章 介 绍 的 新 函数 



























































































































































































































































函数 描述 
abs (number) 返回 指定 数 的 绝对 值 

bytes(string, encoding[, errors]) 对 指定 的 字符 串 进行 编码 ， 并 以 指定 的 方式 处 理 错误 
cmath.sqrt(number) 返回 平方 根 ; 可 用 于 负数 

float(object) 将 字符 囊 或 数字 转换 为 浮 点 数 
help([object]) 提供 交互 式 帮 助 

input (prompt) 以 字符 串 的 方式 获取 用 户 输入 
int(object) 将 字符 串 或 数 转 换 为 整数 

math. ceil(number) 以 浮 点 数 的 方式 返回 向 上 圆 整 的 结果 
math. floor(number) 以 浮 点 数 的 方式 返回 向 下 圆 整 的 结 
math.sqrt(number) 返回 平方 根 ; 不 能 用 于 负数 

pow(x, y[, z]) 返回 x 的 y 次 方 对 z 求 模 的 结 

print(object, ...) 将 提供 的 实 参 打印 出 来 ， 并 用 空格 分 隔 
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( 续 ) 
函 数 描述 
repr(object) 返回 指定 值 的 字符 串 表 示 
四 














vouridtnunberl :ridigitsl) 合 五 人 为 指定 的 精度 ， 正 好 为 5 时 舍 人 到 偶数 


将 指定 的 值 转换 为 字符 串 。 用 了 
在 上 表 中 ， 方 括号 内 的 参数 是 可 选 的 。 








str(object) 











FF 转换 bytes 时 ， 可 指定 编码 和 错误 处 理 方式 

















1.11.2 ”预告 


介绍 表达 式 的 基本 知识 后 , 接 下 来 将 介绍 更 复杂 的 内 容 : 数据 结构 。 你 将 学 习 如 何 将 简单 什 
(如 数 ) 组 合成 更 复杂 的 结构 ， 如 列表 和 字典 ， 而 不 是 分 别处 理 它们 。 另 外 ， 你 还 将 更 深入 学 习 
字符 串 。 在 第 5 章 ， 你 将 更 深入 地 学 习 语句 ， 为 编写 巧妙 的 程序 做 好 准备 。 























列表 和 元 组 


























本 章 将 介绍 一 个 新 概念 : 数据 结构 。 数 据 结 构 是 以 某 种 方式 ( 如 通过 编号 ) 组 合 起 来 的 数据 
元 素 ( 如 数 、 字 符 乃 至 其 他 数据 结构 ) 集合 。 在 Python 中 , 最 基本 的 数据 结构 为 序列 ( sequence )。 
序列 中 的 每 个 元 素 都 有 编号 ， 即 其 位 置 或 索引 ， 其 中 第 一 个 元 素 的 索引 为 0， 第 二 个 元 素 的 索引 
为 1， 依 此 类 推 。 在 有 些 编程 语言 中 ， 从 1 开始 给 序列 中 的 元 素 编号 ， 但 从 0 开始 指出 相对 于 序列 
开头 的 偏 移 量 。 这 显得 更 自然 ,同时 可 回 绕 到 序列 末尾 ,用 负 索 引 表 示 序 列 末尾 元 素 的 位 置 。 你 
可 能 认为 这 种 编号 方式 有 点 怪 ， 但 我 敢 肯 定 ， 你 很 快 就 会 习惯 的 。 

本 章 首先 对 序列 进行 概述 ， 然 后 介绍 一 些 适 用 于 所 有 序列 ( 包括 列表 和 元 组 ) 的 操作 。 这 些 
操作 也 适用 于 本 章 一 些 示 例 中 将 使 用 的 字符 串 , 下 一 章 将 全 面 介绍 字符 串 操 作 。 讨 论 这 些 基 本 知 
识 后 , 将 着 手 介 绍 列表 ,看 看 它们 有 什么 特别 之 处 ,然后 讨论 元 组 。 元 组 是 一 种 特殊 的 序列 ， 类 
似 于 列表 ， 只 是 不 能 修改 。 


2.1 序列 概述 


Python 内 置 了 多 种 序列 ， 本 章 重 点 讨论 其 中 最 常用 的 两 种 : 列表 和 元 组 。 另 一 种 重要 的 序列 
是 字符 串 ， 将 在 下 一 章 更 详细 地 讨论 。 

列表 和 元 组 的 主要 不 同 在 于 ， 列 表 是 可 以 修改 的 ， 而 元 组 不 可 以 。 这 意味 着 列表 适用 于 需要 
中 途 添加 元 素 的 情形 ， 而 元 组 适用 于 出 于 某 种 考虑 需要 禁止 修改 序列 的 情形 。 禁 止 修改 序列 通常 
出 于 技术 方面 的 考虑 , 与 Python 的 内 部 工作 原理 相关 , 这 也 是 有 些 内 置 函 数 返 回 元 组 的 原因 所 在 。 
在 你 自己 编写 程序 时 , 几乎 在 所 有 情况 下 都 可 使 用 列表 来 代替 元 组 。 一 种 例外 情况 是 将 元 组 用 作 
字典 键 ， 这 将 在 第 4 章 讨论 。 在 这 种 情况 下 ， 不 能 使 用 列表 来 代替 元 组 ， 因 为 字典 键 是 不 允许 修 
改 的 。 

在 需要 处 理 一 系列 值 时 ,序列 很 有 用 。 在 数据 库 中 ,你 可 能 使 用 序列 来 表示 人 ， 其 中 第 一 个 
元 素 为 姓名 ， 而 第 二 个 元 素 为 年 龄 。 如 果 使 用 列表 来 表示 ( 所 有 元 素 都 放 在 方 插 号 内 ， 并 用 逗号 
隔 开 )， 将 类 似 于 下 面 这 样 : 

>>> edward = ['Edward Gumby', 42] 

序列 还 可 包含 其 他 序列 ， 因 此 可 创建 一 个 由 数据 库 中 所 有 人 员 组 成 的 列表 : 


>>> edward = ['Edward Gumby', 42] 
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>>> john = [ John Smith', 50] 

>>> database = [edward, john] 

>>> database 

[['Edward Gumby', 42], ['John Smith', 50]] 


注意 ”Python 支持 一 种 数据 结构 的 基本 概念 ， 名 为 容器 ( container )。 容 器 基本 上 就 是 可 包含 其 
他 对 象 的 对 象 。 两 种 主要 的 容器 是 序列 (如 列表 和 元 组 ) 和 映射 (如 字典 )。 在 序列 中 ， 
每 个 元 素 都 有 编号 ， 而 在 映射 中 ， 每 个 元 素 都 有 名 称 (也 叫 键 )。 了 映射 将 在 第 4 章 详细 讨 
论 。 有 一 种 既 不 是 序列 也 不 是 映射 的 容器 ， 它 就 是 集合 ( set )， 将 在 第 10 章 讨论 。 


2.2 通用 的 序列 操作 


有 几 种 操作 适用 于 所 有 序列 ， 包 括 索引 、 切 片 、 相 加 、 相 乘 和 成 员 资格 检查 。 另 外 ，Python 
还 提供 了 一 些 内 置 函 数 ， 可 用 于 确定 序列 的 长 度 以 及 找 出 序列 中 最 大 和 最 小 的 元 素 。 











注意 ， 有 一 个 重要 的 操作 这 里 不 会 介绍 ， 它 就 是 欠 代 (iteration )。 对 序列 进行 迭代 意味 着 对 其 
每 个 元 素 都 执行 特定 的 操作 。 有 关 和 迭代 的 详细 信息 ， 请 参阅 5.5 节 。 


2.2.1 索引 
序列 中 的 所 有 元 素 都 有 编号 一 一 从 0 开始 递增 。 你 可 像 下 面 这 样 使 用 编号 来 访问 各 个 元 素 : 


>>> greeting = 'Hello' 
>>> greeting[0] 

















ee 

注意 字符 串 就 是 由 字符 组 成 的 序列 。 索 引 0 指向 第 一 个 元 素 ， 这 里 为 字母 H。 不 同 于 其 他 一 
些 语言 ,Python 没有 专门 用 于 表示 字符 的 类 型 ,因此 一 个 字符 就 是 只 包含 一 个 元 素 的 字 
符 串 。 


这 称 为 索引 (indexing )。 你 可 使 用 索引 来 获取 元 素 。 这 种 索引 方式 适用 于 所 有 序列 。 当 你 使 
用 负数 索引 时 , Python 将 从 右 〈 即 从 最 后 一 个 元 素 ) 开始 往 左 数 , 因此 -1 是 最 后 一 个 元 素 的 位 置 。 

>>> greeting[-1] 

对 于 字符 串 字面 量 ( 以 及 其 他 的 序列 字面 量 )， 可 直接 对 其 执行 索引 操作 ， 无 需 先 将 其 赋 给 
变量 。 这 与 先 赋 给 变量 再 对 变量 执行 索引 操作 的 效果 是 一 样 的 。 


>>> 'Hello' [1] 
‘er! 
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如 果 函 数 调用 返回 一 个 序列 ,可 直接 对 其 执行 索引 操作 。 例 如 ,如果 你 只 想 获取 用 户 输入 的 
年 份 的 第 4 位 ， 可 像 下 面 这 样 做 : 


>>> fourth = input('Year: ')[3] 
Year: 2005 


>>> fourth 
‘5 


代码 清单 2-1 所 示 的 示例 程序 要 求 你 输入 年 、 月 〈 数 1~ 12 )、 日 ( 数 1 ~31 )， 再 使 用 相应 的 
月 份 名 等 将 日 期 打印 出 来 。 


代码 清单 2-1 索引 操作 示例 
# 将 以 数 指定 年 、 月 、 日 的 日 期 打印 出 来 














months = [ 
' January ， 
'February’', 
"March ， 
“April ， 
May ， 
"June ， 
'July', 
“August ， 
'September’', 
'October', 
'November', 
"DecembeT 


] 

# 一 个 列表 ， 其 中 包含 数 1 一 31 对 应 的 结尾 

endings = ['st', 'nd'’, 'rd']+17*['th'] \ 
+ ['st', 'nd'’, 'rd'] +7* ['th'] \ 


+ ['st'] 
year = input('Year: ') 
onth = input('Month (1-12): ') 
day = input('Day (1-31): ') 


onth_number = int(month) 
day_number = int(day) 


# 别 忘 了 将 表示 月 和 日 的 数 减 1， 这 样 才能 得 到 正确 的 索引 
onth name = months[month number-1] 
ordinal = day + endings[day_number-1] 





print(month name + ' ' + ordinal + ', ' + year) 
这 个 程序 的 运行 情况 类 似 于 下 面 这 样 : 
Year: 1974 


Month (1-12): 8 
Day (1-31): 16 
August 16th, 1974 
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最 后 一 行为 这 个 程序 的 输出 。 





2.2.2 切片 


除 使 用 索引 来 访问 单个 元 素 外 ， 还 可 使 用 切片 (slicing ) 来 访问 特定 范围 内 的 元 素 。 为 此 ， 
可 使 用 两 个 索引 ， 并 用 冒号 分 隔 : 


>>> tag = '<a href="http://www.python.org">Python web site</a>’' 
>>> tag[9:30] 

‘http://www.python.org’ 

>>> tag[32:-4] 

"Python web site 


如 你 所 见 ， 切 片 适用 于 提取 序列 的 一 部 分 ,其 中 的 编号 非常 重要 : 第 一 个 索引 是 包含 的 第 一 
个 元 素 的 编号 ， 但 第 二 个 索引 是 切片 后 余下 的 第 一 个 元 素 的 编号 。 请 看 下 面 的 示例 : 


>>> numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 
>>> numbers[3:6] [4, 5, 6] 
>>> numbers[0:1] [1] 


简 而 言 之 ， 你 提供 两 个 索引 来 指定 切片 的 边界 ， 其 中 第 一 个 索引 指定 的 元 素 包 含 在 切片 内 ， 
但 第 二 个 索引 指定 的 元 素 不 包含 在 切片 内 。 

1. 绝妙 的 简写 

假设 你 要 访问 前 述 数字 列表 中 的 最 后 三 个 元 素 ， 显 然 可 以 明确 地 指定 这 一 点 。 

>>> numbers[7:10] 

[8，9，10] 


在 这 里 , 索引 10 指 的 是 第 11 个 元 素 : 它 并 不 存在 ,但 确实 是 到 达 最 后 一 个 元 素 后 再 前 进一步 
所 处 的 位 置 。 明 白 了 吗 ? 如 果 要 从 列表 末尾 开始 数 ， 可 使 用 负数 索引 。 


>>> numbers[-3:-1] 
[8, 9] 


然而 ， 这 样 好 像 无 法 包含 最 后 一 个 元 素 。 如 果 使 用 索引 0， 即 到 达 列 表 未 尾 后 再 前 进一步 所 
处 的 位 置 ， 结 果 将 如 何 呢 ? 


>>> numbers[ -3:0] 

































































结果 并 不 是 你 想 要 的 。 事 实 上 ， 执 行 切 片 操作 时 ， 如 果 第 一 个 索引 指定 的 元 素 位 于 第 二 个 索 
引 指定 的 元 素 后 面 (在 这 里 ， 倒 数 第 3 个 元 素 位 于 第 1 个 元 素 后 面 )， 结 果 就 为 空 序列 。 好 在 你 能 
使 用 一 种 简写 : 如 果 切 片 结束 于 序列 末尾 ， 可 省 略 第 二 个 索引 。 


>>> numbers[-3:] 
[8，9，10] 


同样 ， 如 果 切 片 始 于 序列 开头 ， 可 省 略 第 一 个 索引 。 


>>> numbers[ :3] 
[1, 2, 3] 


























2.2 通用 的 序列 操作 27 











实际 上 ， 要 复制 整个 序列 ， 可 将 两 个 索引 都 省 略 。 


>>> numbers[:] 
[全 2 9 0| 


代码 清单 2.2 是 一 个 小 程序 ， 它 提示 用 户 输入 一 个 URL， 并 从 中 提取 域名 。( 这 里 假定 输入 的 | 


URL 类 似 于 http://www.somedomainname.com。 ) 


代码 清单 2-2 切片 操作 示例 
# 从 类 似 于 http://www.something.com 的 URL 中 提取 域名 





url = input('Please enter the URL:') 
domain = url[11:-4] 


print("Domain name: " + domain) 

这 个 程序 的 运行 情况 类 似 于 下 面 这 样 : 

Please enter the URL: http://www.python.org 

Domain name: python 

2. 更 大 的 步 长 

执行 切片 操作 时 ， 你 显 式 或 隐 式 地 指定 起 点 和 终点 ,但 通常 省 略 另 一 个 参数 ， 即 步 长 。 在 普 
通 切片 中 ， 步 长 为 1。 这 意味 着 从 一 个 元 素 移 到 下 一 个 元 素 ， 因 此 切片 包含 起 点 和 终点 之 间 的 所 
有 元 素 。 


>>> numbers[0:10:1] 
上 


在 这 个 示例 中 ,指定 了 另 一 个 数 。 你 可 能 猜 到 了 ,这 显 式 地 指定 了 步 长 。 如 果 指 定 的 步 长 大 
于 1， 将 跳 过 一 些 元 素 。 例 如 ， 步 长 为 2 时， 将 从 起 点 和 终点 之 间 每 隔 一 个 元 素 提取 一 个 元 素 。 

>>> numbers[0:10:2] 

[1, 3, 5, 7, 9] 


numbers[3:6:3] 
[4] 


显 式 地 指定 步 长 时 ,也 可 使 用 前 述 简写 。 例 如 ,要 从 序列 中 每 隔 3 个 元 素 提 取 1 个 ， 只 需 提 供 
步 长 4 即 可 。 


>>> numbers[::4] 
[1, 5, 9] 


当然 ， 步 长 不 能 为 0， 否 则 无 法 向 前 移动 ， 但 可 以 为 负数 ， 即 从 右 向 左 提取 元 素 。 
>>> numbers[8:3:-1] 

[9， 8， 7， 6， 5] 

>>> numbers[10:0:-2] 

[10, 8, 6, 4, 2] 

>>> numbers[0:10:-2] 

[] 

>>> numbers[::-2] 

[10, 8, 6, 4, 2] 
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>>> numbers[5::-2] 
[6，4，2] 

>>> numbers[:5:-2] 
[10，8] 


在 这 种 情况 下 ， 要 正确 地 提取 颇 费 思量 。 如 你 所 见 ， 第 一 个 索引 依然 包含 在 内 ， 而 第 二 个 索 
引 不 包含 在 内 。 步 长 为 负数 时 ,第 一 个 索引 必须 比 第 二 个 索引 大 。 可 能 有 点 令 人 迷惑 的 是 ， 当 你 
省 略 起 始 和 结束 索引 时 ，Python 竟 然 执行 了 正确 的 操作 : 步 长 为 正 数 时 ， 它 从 起 点 移 到 终点 ， 而 
步 长 为 负数 时 ， 它 从 终点 移 到 起 点 。 














2.2.3 ”序列 相 加 
可 使 用 加 法 运算 符 来 拼接 序列 。 


>>> [1, 2, 3] + [4, 5, 6] 

1, 2, 3, 4, 5, 6] 

>>> 'Hello,' + 'world!' 

‘Hello, world!' 

>>> [1, 2, 3] + ‘world!' 

Traceback (innermost last): 

File "<pyshell>", line 1, in ? 

，2, 3] + worldl 

TypeError: can only concatenate list (not "string") to list 
从 错误 消息 可 知 ,不 能 拼接 列表 和 字符 串 ， 虽 然 它们 都 是 序列 。 一 般 而 言 ， 不 能 拼接 不 同类 

型 的 序列 。 


2.2.4 乘 ; 
将 序列 与 数 x 相 乘 时 ， 将 重复 这 个 序列 x 次 来 创建 一 个 新 序列 : 


>>> 'python' * 5 

‘pythonpythonpythonpythonpython’ 

>>> [42] * 10 

[42, 42, 42, 42, 42, 42, 42, 42, 42, 42] 

None、 空 列表 和 初始 化 

空 列表 是 使 用 不 包含 任何 内 容 的 两 个 方 括号 ([] ) 表示 的 。 如 果 要 创建 一 个 可 包含 10 个 元 素 
的 列表 ,但 没有 任何 有 用 的 内 容 ， 可 像 前 面 那 样 使 用 [42]*10。 但 更 准确 的 做 法 是 使 用 [0]*10， 
这 将 创建 一 个 包含 10 个 零 的 列表 。 然 而 , 在 有 些 情况 下 , 你 可 能 想 使 用 表示 “什么 都 没有 ”的 值 ， 
如 表示 还 没有 在 列表 中 添加 任何 内 容 。 在 这 种 情况 下 ， 可 使 用 None。 在 Python 中 ，None 表 示 什 么 
都 没有 。 因 此 ， 要 将 列表 的 长 度 初始 化 为 10， 可 像 下 面 这 样 做 : 


>>> sequence = [None] * 10 
>>> sequence 
[None, None, None, None, None, None, None, None, None, None] 


代码 清单 2-3 所 示 的 程序 在 屏幕 上 打印 一 个 由 字符 组 成 的 方 框 。 这 个 方 框 位 于 屏幕 中 央 ， 宽 
度 取决 于 用 户 提供 的 句子 的 长 度 。 这 些 代 码 看 似 很 复杂 , 但 基本 上 只 使 用 了 算术 运算 : 计算 需要 
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多 少 个 空格 、 短 划 线 等 ， 以 便 将 内 容 显示 到 正确 的 位 置 。 


代码 清单 2-3 ”序列 (字符 串 ) 乘法 运算 示例 
# 在 位 于 屏幕 中 央 且 宽度 合适 的 方 框 内 打印 一 个 身子 








sentence = input("Sentence: ") 


screen width = 80 
text width = len(sentence) 











box width = text width + 6 

left margin = (screen width - box width) // 2 

print() 

print(' ' * left margin + '+'" + '-' * (box width-2) + '+') 
print(' ' * left margin + | +” '* text width ee 
print(' ' * left margin + '| "+ sentence + "|') 
print(' ' * left margin + | +” '* text width 员 革 中信 
print(' ' * left _ margin + '+' + - * (box width-2) + '+') 
print() 


这 个 程序 的 运行 情况 类 似 于 下 面 这 样 : 


Sentence: He's a very naughty boy! 





| He's a very naughty boy! | 
| 

















要 检查 特定 的 值 是 否 包含 在 序列 中 ,可 使 用 运算 符 in。 这 个 运算 符 与 前 面 讨论 的 运算 符 (如 
乘法 或 加 法 运算 符 ) 稍 有 不 同 。 它 检查 是 否 满足 指定 的 条 件 , 并 返回 相应 的 值 : 满足 时 返回 True， 
不 满足 时 返回 False。 这 样 的 运算 符 称 为 布尔 运算 符 ， 而 前 述 真 值 称 为 布尔 值 。 布 尔 表达 式 将 在 
5.4 节 详细 介绍 。 

下 面 是 一 些 in 运算 符 的 使 用 示例 : 


>>> permissions = “ITW” 

>>> 'w' in permissions 

True 

>>> 'x' in permissions 

False 

>>> users = ['mlh', 'foo', 'bar'] 

>>> input('Enter your user name: ') in users 
Enter your user name: mlh 

True 

>>> subject = '$$$ Get rich now!!! $$$" 
>>> '$$$' in subject 

True 
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开头 两 个 示例 使 用 成 员 资格 测试 分 别 检查 'w' 和 'x' 是 否 包含 在 字符 串 变 量 permissions 中 。 在 
UNIX 系 统 中 ， 可 在 脚本 中 使 用 这 两 行 代码 来 检查 对 文件 的 写 入 和 执行 权限 。 接 下 来 的 示例 检查 
提供 的 用 户 名 mlh 是 否 包 含 在 用 户 列表 中 ， 这 在 程序 需要 执行 特定 的 安全 策略 时 很 有 用 ( 在 这 种 
情况 下 ， 可 能 还 需 检查 密码 )。 最 后 一 个 示例 检查 字符 串 变量 subject 是 否 包含 字符 串 '$$$' ， 这 
可 用 于 垃圾 邮件 过 滤 需 中 。 














注意 ， 相 比 于 其 他 示例 ， 检 查 字 符 串 是 否 包含 '$$$ ' 的 示例 稍 有 不 同 。 一 般 而 言 ， 运 算 符 in 检查 
指定 的 对 象 是 否 是 序列 (或 其 他 集合 ) 的 成 员 ( 即 其 中 的 一 个 元 素 )， 但 对 字符 串 来 说 ， 
只 有 它 包 含 的 字符 才 是 其 成 员 或 元 素 ， 因 此 下 面 的 代码 完全 合理 : 
>>> 'P' in 'Python’ 
True 
事实 上 ， 在 较 早 的 Python 版 本 中 ， 只 能 对 字符 串 执 行 这 种 成 员 资格 检查 一 一 确定 指定 的 
字符 是 否 包含 在 字符 串 中 ， 但 现在 可 使 用 运算 符 in 来 检查 指定 的 字符 串 是 否 为 另 一 个 字 
符 串 的 子 串 。 





代码 清单 2-4 所 示 的 程序 从 用 户 那 里 获取 一 个 用 户 名 和 一 个 PIN 码 , 并 检查 它们 组 成 的 列表 是 
否 包 含 在 数据 库 ( 实际 上 也 是 一 个 列表 ) 中 。 如 果 用 户 名 -PIN 码 对 包含 在 数据 库 中 ,就 打印 字符 
串 'Access granted' (if 语句 在 第 1 章 提 到 过 ， 并 将 在 第 5 章 全面 介 绍 )。 


代码 清单 2-4 ”序列 成 员 资格 示例 


# 检查 用 户 名 和 PIN 码 








database = [ 
['albert', '1234'], 
['dilbert', '4242'], 
['smith', “7524'] ， 
['jones', “9843 ] 
] 


username = input('User name: ') 
pin = input('PIN code: ') 


if [username, pin] in database: print('Access granted') 


长 度 、 最 小 值 和 最 大 值 
内 置 函 数 len、min 和 max 很 有用， 其 中 也 数 len 返 回 序列 包含 的 元 素 个 数 ， 而 min 和 max 分 别 返 
回 序列 中 最 小 和 最 大 的 元 素 ( 对 象 比 较 将 在 5.4.6 节 的 “比较 运算 符 ” 部 分 详细 介绍 )。 


>>> numbers = [100, 34, 678] 
>>> len(numbers) 

3 

>>> max(numbers) 

678 

>>> min(numbers) 
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34 

>>> max(2，3) 

3 

>>> min(9，3，2，5) 
2 


基于 前 面 的 解释 , 这些 代码 应 该 很 容易 理解 ,但 最 后 两 个 表达 式 可 能 例外 。 在 这 两 个 表达 式 
中 ， 调 用 max 和 min 时 指定 的 实 参 并 不 是 序列 ， 而 直接 将 数 作为 实 参 。 











2.3 列表: Python 的 主力 


前 面 的 示例 大 量 地 使 用 了 列表 , 你 明白 了 它们 很 有 用 , 但 本 节 主 要 讨论 列表 不 同 于 元 组 和 字 
符 串 的 地 方 一 一 列表 是 可 变 的 ， 即 可 修改 其 内 容 。 另 外 ， 列 表 有 很 多 特有 的 方法 。 


2.3.1 函数 list 


鉴于 不 能 像 修 改 列表 那样 修改 字符 串 ， 因 此 在 有 些 情况 下 使 用 字符 串 来 创建 列表 很 有 帮助 。 
为 此 ， 可 使 用 函数 list"。 

>>> list('Hello') 

| 

请 注意 ， 可 将 任何 序列 ( 而 不 仅仅 是 字符 串 ) 作为 1ist 的 参数 。 








提示 要 将 字符 列表 ( 如 前 述 代码 中 的 字符 列表 ) 转换 为 字符 串 ， 可 使 用 下 面 的 表达 式 : 
''.join(somelist) 


其 中 somelist 是 要 转换 的 列表 。 这 到 底 是 什么 意思 呢 ? 3.4.3 节 对 此 做 了 说 明 。 


2.3.2 基本 的 列表 操作 


可 对 列表 执行 所 有 的 标准 序列 操作 ， 如 索引 、 切 片 、 拼 接 和 相 乘 ， 但 列表 的 有 趣 之 处 在 于 它 
是 可 以 修改 的 。 本 节 将 介绍 一 些 修改 列表 的 方式 : 给 元 素 赋值 、 删 除 元 素 、 给 切片 赋值 以 及 使 用 
列表 的 方法 。( 请 注意 ， 并 非 所 有 列表 方法 都 会 修改 列表 。 ) 

1. 修改 列表 : 给 元 素 赋值 

修改 列表 很 容易 ， 只 需 使 用 第 1 章 介绍 的 普通 赋值 语句 即 可 ， 但 不 是 使 用 类 似 于 x = 2 这 样 的 
赋值 语句 ， 而 是 使 用 索引 表示 法 给 特定 位 置 的 元 素 赋 值 ， 如 x[1] = 2。 


>| 
>>> x[1] = 2 

>>> x 

| 












































中 它 实际 上 是 一 个 类 ， 而 不 是 函数 ,但 眼下 ， 这 种 差别 并 不 重要 。 





32 第 2 章 列表 和 元 组 





注意 ”不 能 给 不 存在 的 元 素 赋值 ， 因 此 如 果 列 表 的 长 度 为 2， 就 不 能 给 索引 为 100 的 元 素 赋值 。 
要 这 样 做 ， 列 表 的 长 度 至 少 为 101。 请 参阅 本 章 前 面 的 “None、 空 列表 和 初始 化 ”一 节 。 


2. 删除 元 素 

从 列表 中 删除 元 素 也 很 容易 ， 只 需 使 用 de1 语 句 即 可 。 

>>> names = ['Alice', "Beth'， 'Cecil', 'Dee-Dee', "Earl '] 

>>> del names[2] 

>>> names 

['Alice', 'Beth', 'Dee-Dee'’, 'Earl'] 

注意 到 Cecil 彻 底 消失 了 ， 而 列表 的 长 度 也 从 5 变 成 了 4。 除 用 于 删除 列表 元 素 外 ，del 语 句 还 
可 用 于 删除 其 他 东西 。 你 可 将 其 用 于 字典 ( 参见 第 4 章 ) 乃至 变量 ， 有 关 这 方面 的 详细 信息 ， 请 
参阅 第 5 章 。 

3. 给 切片 赋值 

切片 是 一 项 极其 强大 的 功能 ， 而 能 够 给 切片 赋值 让 这 项 功能 显得 更 加 强大 。 

>>> name = list('Perl') 

>>> name 

[Ps ey Ts "1'] 

>>> name[2:] = list('ar') 

>>> name 

| ey a | 

从 上 述 代码 可 知 ， 可 同时 给 多 个 元 素 赋值 。 你 可 能 认为 ， 这 有 什么 大 不 了 的 , 分别 给 每 个 元 
素 赋值 不 是 一 样 的 吗 ? 确实 如 此 ， 但 通过 使 用 切片 赋值 ， 可 将 切片 替换 为 长 度 与 其 不 同 的 序列 。 

>>> name = list('Perl') 

>>> name[1:] = list('ython') 

>>> name 

[RB 区 A Se '0', 'n'] 

使 用 切片 赋值 还 可 在 不 替换 原 有 元 素 的 情况 下 插入 新 元 素 。 

>>> numbers = [1, 5] 

>>> numbers[1:1] = [2, 3, 4] 

>>> numbers 

[4.25.35 加 : 引 


在 这 里 ， 我 “替换 ”了 一 个 空 切 片 ， 相 当 于 插入 了 一 个 序列 。 你 可 采取 相反 的 措施 来 删除 
切片 。 

>>> numbers 

[2 

>>> numbers[1:4] = [] 

>>> numbers 

[到 


你 可 能 猜 到 了 ， 上 述 代码 与 del numbers[1:4] 等 效 。 现 在 ,你 可 自己 尝试 执行 步 长 不 为 1 ( 乃 
至 为 负 ) 的 切片 赋值 了 。 
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2.3.3 ”列表 方法 
方法 是 与 对 象 (列表 、 数 、 字 符 串 等 ) 联系 紧密 的 函数 。 通 常 ， 像 下 面 这 样 调用 方法 : 


object.method(arguments) 


方法 调用 与 消 数 调用 很 像 ， 只 是 在 方法 名 前 加 上 了 对 象 和 句点 (第 7 章 将 详细 曾 述 方法 到 底 
是 什么 )。 列 表 包 含 多 个 可 用 来 查看 或 修改 其 内 容 的 方法 。 

1. append 

方法 append 用 于 将 一 个 对 象 附 加 到 列表 末尾 。 

>>> lst = [1, 2, 3] 

>>> lst.append(4) 

>>> lst 

[1，2，3，4] 

可 能 心 存疑 虑 ， 为 何 给 列表 取 1st 这 样 糟糕 的 名 字 ， 而 不 称 之 为 1ist 呢 ? 我 原本 是 可 以 这 

三 ， 但 你 可 能 还 记得 ，1ist 是 一 个 内 置 函 数 "， 如 果 我 将 前 述 列 表 命名 为 list， 就 无 法 调用 
这 个 函数 。 在 特定 的 应 用 程序 中 ,通常 可 给 列表 选择 更 好 的 名 称 。 诸 如 1st 等 名 称 确实 不 能 提供 
任何 信息 。 因 此 ， 如 果 列 表 为 价格 列表 ， 可 能 应 该 将 其 命名 为 prices 、prices_of eggs 或 
pricesOfEggs。 

另外 请 注意 , 与 其 他 几 个 类 似 的 方法 一 样 ，append 也 就 地 修改 列表 。 这 意味 着 它 不 会 返回 修 
改 后 的 新 列表 ,而 是 直接 修改 旧 列 表 。 这 通常 正 是 你 想 要 的 , 但 有 时 会 带 来 麻烦 。 我 将 在 本 章 后 
面 介绍 sort 时 再 回 过 头 来 讨论 这 一 点 

2. clear 

方法 clear 就 地 清空 列表 的 内 容 。 


>>> lst = [1，2，3] 
>>> lst.clear() 
>>> lst 


[] 
这 类 似 于 切片 赋值 语句 lst[:] = []。 
3. copy 


方法 copy 复制 列表 。 前 面 说 过 ， 和 常规 复制 只 是 将 另 一 个 名 称 关联 到 列表 。 































































































>>> a = [1, 2, 3] 
>>>b=a 

>>> b[1] = 4 

>>> a 

[1, 4, 3] 


要 让 a 和 b 指 向 不 同 的 列表 ， 就 必须 将 b 关 联 到 3 的 副本 。 











@D 实际 上 ， 从 Python 2.2 起 ，1ist 就 是 类 型 ， 而 不 是 函数 了 ( tuple 和 str 亦 如 此 )。 有 关 这 方面 的 完整 说 明 ， 请 参阅 
9.3.2 节 。 
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23 [23 

>>> b = a.copy() 

>>> b[1] = 4 

>>> a 

[1, 2, 3] 

这 类 似 于 使 用 a[ : ] 或 list(a)， 它 们 也 都 复制 a。 

4. count 

方法 count 计 算 指定 的 元 素 在 列表 中 出 现 了 多 少 次 。 

>>> ['to', 'be'’, 'or', 'not', 'to', 'be'].count('to') 

> 

2 人 这 < [Es 21]3 3 [2， 1， [1， 2]]] 

>>> x.count(1) 

2 

>>> x.count([1, 2]) 

ha 

5. extend 

方法 extend 让 你 能 够 同时 将 多 个 值 附加 到 列表 末尾 , 为 此 可 将 这 些 值 组 成 的 序列 作为 参数 提 
供给 方法 extend。 换 而 言 之 ,你 可 使 用 一 个 列表 来 扩展 男 一 个 列表 。 


>>> a = [1, 2, 3] 
>>> b = [4, 5,6] 
>>> a.extend(b) 
>>> a 
| 


这 可 能 看 起 来 类 似 于 拼接 ， 但 存在 一 个 重要 差别 ， 那 就 是 将 修改 被 扩展 的 序列 ( 这 里 是 a )。 
在 常规 拼接 中 ,情况 是 返回 一 个 全 新 的 序列 。 


>> > | 
>>> b = [4, 5,6] 
>>>a+b 
[| 
| 

| 


如 你 所 见 ， 拼 接 出 来 的 列表 与 前 一 个 示例 扩展 得 到 的 列表 完全 相同 ， 但 在 这 里 3 并 没有 被 修 
改 。 鉴 于 常规 拼接 必须 使 用 a 和 b 的 副本 创建 一 个 新 列表 ， 因 此 如 果 你 要 获得 类 似 于 下 面 的 效果 ， 
拼接 的 效率 将 比 extend 低 : 

>>>a=a+b 

另外 ， 拼 接 操 作 并 非 就 地 执行 的 ， 即 它 不 会 修改 原来 的 列表 。 要 获得 与 extend 相 同 的 效果 ， 
可 将 列表 赋 给 切片 ， 如 下 所 示 : 





















































>>>a= [1, 2, 3] 
>>> b = [4, 5,6] 
>>> a[len(a):] = b 
>>> a 
| 


这 虽然 可 行 ， 但 可 读 性 不 是 很 高 。 
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6. index 
方法 index 在 列表 中 查找 指定 值 第 一 次 出 现 的 索引 。 
>>> knights = ['We', 'are', 'the'’, 'knights', 'who', 'say', 'ni'] 
>>> knights.index('who’') 
4 
>>> knights.index('herring') 
Traceback (innermost last): 
File "<pyshell>", line 1, in ? 

knights.index('herring') 

ValueError: list.index(x): x not in list 


搜索 单词 'who' 时 ， 发 现 它 位 于 索引 4 处 。 


>>> knights[4] 








"Who 
然而 ， 搜 索 'herring ' 时 引发 了 异常 ， 因 为 根本 就 没有 找到 这 个 单词 。 
7. insert 


方法 insert 用 于 将 一 个 对 象 插入 列表 。 


>>> numbers = [1, 2, 3, 5, 6, 7] 
>>> numbers.insert(3, 'four') 

>>> numbers 
[n> 2，3， four ， 5， 6， 7] 


与 extend 一 样 ， 也 可 使 用 切片 赋值 来 获得 与 insert 一 样 的 效果 。 


>>> numbers = [1, 2, 3, 5, 6, 7] 

>>> numbers[3:3] = ['four'] 

>>> numbers 

[1， 2， 37 fouT ， 5， 6， 7] 

这 昌 巧 妙 ， 但 可 读 性 根本 无 法 与 使 用 insert 媲 美 。 
8. pop 

方法 pop 从 列表 中 删除 一 个 元 素 (末尾 为 最 后 一 个 元 素 )， 并 返回 这 一 元 素 。 
>>> x = [1, 2, 3] 

>>> x.pop() 

3 

>>> x 

[1, 2] 

>>> x.pop(0) 

4 

>>> x 


[2] 





注意 ”pop 是 唯一 既 修 改 列表 又 返回 一 个 非 None 值 的 列表 方法 。 








使 用 pop 可 实现 一 种 常见 的 数据 结构 一 一 栈 ( stack )。 栈 就 像 一 释 盘 子 , 你 可 在 上 面 添加 盘子 ， 
还 可 从 上 面 取 走 盘子 。 最 后 加 入 的 盘子 最 先 取 走 ， 这 被 为 后 进 先 出 (LIFO )。 
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push 和 pop 是 大 家 普遍 接受 的 两 种 栈 操作 ( 加 入 和 取 走 ) 的 名 称 。Python 没 有 提供 push, 但 可 


使 用 append 来 替代 。 方法 pop 和 append 的 效果 相反 ， 因 此 将 刚 弹 出 的 值 压 入 (或 附加 ) 后 , 得 到 的 
栈 将 与 原来 相同 。 


>>> x = [1, 2, 3] 
>>> x.append(x.pop()) 
>>> X 

| 


提示 “要 创建 先进 先 出 (FIFO ) 的 队列 ， 可 使 用 insert(0，...) 代 替 append。 另 外 ， 也 可 继续 使 

















是 字符 串 'bee' )。 


用 append， 但 用 pop(0) 替 代 pop()。 一 种 更 佳 的 解决 方案 是 ， 使 用 模块 Collections 中 的 
deque。 有 关 这 方面 的 详细 信息 ， 请 参阅 第 10 章 。 


9. remove 
方法 remove 用 于 删除 第 一 个 为 指定 值 的 元 素 。 
>>>X= ['to', 'be'’, 'or', 'not', 'to', 'be'] 
>>> x.removel('be') 
>>> x 
['to', 'or', 'not', 'to', 'be'] 
>>> x.remove('bee') 
Traceback (innermost last): 
File "<pyshell>", line 1, in ? 
X.Temove( 'bee') 
ValueError: list.remove(x): x not in list 


如 你 所 见 ， 这 只 删除 了 为 指定 值 的 第 一 个 元 素 , 无 法 删除 列表 中 其 他 为 指定 值 的 元 素 ( 这 里 

















请 注意 ，remove 是 就 地 修改 且 不 返回 值 的 方法 之 一 。 不 同 于 pop 的 是 ， 它 修改 列表 ,但 不 返 


回 任 何 值 。 


10. reverse 


方法 reverse 按 相反 的 顺序 排列 列表 中 的 元 素 ( 我 想 你 对 此 应 该 不 会 感到 惊讶 )。 


>>> x = [1，2，3] 
>>> x.reverse() 
>>> x 

[3, 2, 1] 


注意 到 reverse 修 改 列 表 ， 但 不 返回 任何 值 ( 与 remove 和 sort 等 方法 一 样 )。 








提示 “如 果 要 按 相 反 的 顺序 迭代 序列 ， 可 使 用 函数 feversed。 这 个 函数 不 返回 列表 ， 而 是 返回 


一 个 迭代 器 〈 选 代 器 将 在 第 9 章 详细 介绍 )。 你 可 使 用 1ist 将 返回 的 对 象 转换 为 列表 。 
>>>X= [1，2，3] 

>>> list(reversed(x)) 

[3, 2, 1] 
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11. sort 
方法 sort 用 于 对 列表 就 地 排序 "。 就 地 排序 意味 着 对 原来 的 列表 进行 修改 ， 使 其 元 素 按 顺序 
排列 ， 而 不 是 返回 排序 后 的 列表 的 副本 。 


>>> X= [4， 02 4; 7 9] 
>>> x.sort() 

>>> x 

bl 2 4 >. 75 | 


前 面 介绍 了 多 个 修改 列表 而 不 返回 任何 值 的 方法 ,在 大 多 数 情 况 下 ,这 种 行为 都 相当 自然 ( 例 
如 ， 对 append 来 说 就 如 此 )。 需 要 强调 sort 的 行为 也 是 这 样 的 ， 因 为 这 种 行为 给 很 多 人 都 带 来 了 
困惑 。 在 需要 排序 后 的 列表 副本 并 保留 原始 列表 不 变 时 , 通常 会 遭遇 这 种 困惑 。 为 实现 这 种 目标 ， 
一 种 直观 (但 错误 ) 的 方式 是 像 下 面 这 样 做 : 


>>> X= [4， 6，2，1，7， 9] 

>>> y = x.sort() # Don't do thisl 
>>> print(y) 

None 


鉴于 sort 修 改 x 且 不 返回 任何 值 ， 最 终 的 结果 是 x 是 经 过 排序 的 ， 而 y 包 含 None。 为 实现 前 述 
目标 ， 正 确 的 方式 之 一 是 先 将 y 关 联 到 x 的 副本 ， 再 对 y 进 行 排序 ， 如 下 所 示 : 


>>> X= [4， 6，2，1，7， 9] 
>>> y = x.copy() 

>>> y.sort() 

>>> x 

[4, 6, 2, 1, 7, 9] 

>>> y 

[1, 2, 4, 6, 7, 9] 


只 是 将 x 赋 给 y 是 不 可 行 的 ， 因 为 这 样 x< 和 y 将 指向 同一 个 列表 。 为 获取 排序 后 的 列表 的 副本 ， 
另 一 种 方式 是 使 用 函数 sorted。 


>>> X= [4， 6，2，1，7， 9] 
>>> y = sorted(x) 

>>> x 

上 

>>> y 

上 


实际 上 ， 这 个 函数 可 用 于 任何 序列 ,但 总 是 返回 一 个 列表 ”。 

>>> sorted( "Python ) 

['P', 的 办 "0 “ty sy 

如 果 要 将 元 素 按 相反 的 顺序 排列 ， 可 先 使 用 sort (或 sorted )， 再 调用 方法 reverse， 也 可 使 
用 参数 reverse， 这 将 在 下 一 小 节 介绍 。 







































































GD 多 说 一 句 ， 从 Python 2.3 起 ， 方 法 sort 使 用 的 是 稳定 的 排序 算法 。 
@) 实际 上 ， 函 数 sorted 可 用 于 任何 可 迭代 的 对 象 。 可 迭代 的 对 象 将 在 第 9 章 详 细 介 绍 。 
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12. 高 级 排序 

方法 sort 接 受 两 个 可 选 参数 : key 和 reverse。 这 两 个 参数 通常 是 按 名 称 指定 的 ， 称 为 关键 字 
参数 ， 将 在 第 6 章 详细 讨论 。 参 数 key 类 似 于 参数 cmp: 你 将 其 设置 为 一 个 用 于 排序 的 函数 。 然 而 ， 
不 会 直接 使 用 这 个 函数 来 判断 一 个 元 素 是 否 比 另 一 个 元 素 小 ， 而 是 使 用 它 来 为 每 个 元 素 创 建 一 个 
键 , 再 根据 这 些 键 对 元 素 进 行 排序 。 因此 , 要 根据 长 度 对 元 素 进 行 排序 , 可 将 参数 key 设 置 为 函数 len。 


>>> x = ['aardvark', 'abalone', 'acme', 'add', 'aerate'] 
>>> x.sort(key=len) 

>>> x 

['add', 'acme', 'aerate', 'abalone', 'aardvark'] 


对 于 另 一 个 关键 字 参 数 reverse， 只 需 将 其 指定 为 一 个 真 值 (True 或 False, 将 在 第 5 章 详细 介 
绍 )， 以 指出 是 否 要 按 相反 的 顺序 对 列表 进行 排序 。 


>>> x = [4, 6, 2, 1, 7, 9] 
>>> x.sort(reverse=True) 
六 

[9 3367 2 


函数 sorted 也 接受 参数 key 和 reverse。 在 很 多 情况 下 , 将 参数 key 设 置 为 一 个 自 定义 函数 很 有 
用 。 第 6 章 将 介绍 如 何 创建 自 定义 函数 。 



















































































提示 “如 果 你 想 更 深入 地 了 解 排序 ， 可 以 参阅 文章 “Sorting Mini-HOW TO”: https://wiki.python. 
org/moin/HowTo/Sorting。 


2.4 元 组 : 不 可 修改 的 序列 


与 列表 一 样 , 元 组 也 是 序列 ， 唯 一 的 差别 在 于 元 组 是 不 能 修改 的 (你 可 能 注意 到 了 ,字符 串 
也 不 能 修改 )。 元 组 语法 很 简单 ， 只 要 将 一 些 值 用 逗号 分 隔 ， 就 能 自动 创建 一 个 元 组 。 

L273 

(1, 2, 3) 


如 你 所 见 ， 元 组 还 可 用 圆 括号 括 起 〈 这 也 是 通常 采用 的 做 法 )。 


(1 2 3) 

































































(1, 2, 3) 
空 元 组 用 两 个 不 包含 任何 内 容 的 圆 括号 表示 。 
>>> () 


() 
你 可 能 会 问 , 如 何 表示 只 包含 一 个 值 的 元 组 呢 ? 这 有 点 特殊 : 虽然 只 有 一 个 值 ， 也 必须 在 它 
后 面 加 上 逗号 。 
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>>> (42,) 
(42,) 


最 后 两 个 示例 创建 的 元 组 长 度 为 1， 而 第 一 个 示例 根本 没有 创建 元 组 。 扣 号 至 关 重要 ， 仅 将 
值 用 圆 括号 括 起 不 管用 : (42) 与 42 完 全 等 效 。 但 仅仅 加 上 一 个 逗号 ， 就 能 完全 改变 表达 式 的 值 。 


>>> 3 * (40 + 2) 














126 
>>> 3 * (40 + 2,) 
(42, 42,42) 





函数 tuple 的 工作 原理 与 1ist 很 像 : 它 将 一 个 序列 作为 参数 ， 并 将 其 转换 为 元 组 "。 如 果 参 数 
已 经 是 元 组 ， 就 原封 不 动 地 返回 它 。 

>>> tuple([1, 2, 3]) 

(1, 2, 3) 

>>> tuple('abc') 

(a bl, 

>>> tuple((1, 2, 3)) 

(1, 2, 3) 

你 可 能 意识 到 了 , 元 组 并 不 太 复 杂 , 而 且 除 创建 和 访问 其 元 素 外 , 可 对 元 组 执行 的 操作 不 多 。 
元 组 的 创建 及 其 元 素 的 访问 方式 与 其 他 序列 相同 。 


> 
>>> x[1] 

这 

>>> x[0:2] 

1, 2) 


元 组 的 切片 也 是 元 组 , 就 像 列 表 的 切片 也 是 列表 一 样 。 为 何 要 熟悉 元 组 呢 ? 原因 有 以 下 两 个 。 

口 它们 用 作 有 映射 中 的 键 (以 及 集合 的 成 员 )， 而 列表 不 行 。 映 射 将 在 第 4 章 详细 介绍 。 

口 有 些 内 置 函 数 和 方法 返回 元 组 ， 这 意味 着 必须 跟 它们 打交道 。 只 要 不 尝试 修改 元 组 ,与 
元 组 “打交道 ”通常 意味 着 像 处 理 列表 一 样 处 理 它们 ( 需要 使 用 元 组 没有 的 ijndex 和 count 
等 方法 时 例外 )。 

一 般 而 言 ， 使 用 列表 足以 满足 对 序列 的 需求 。 



































2.5 小结 


下 面 来 回顾 一 下 本 章 介绍 的 一 些 最 重要 的 概念 。 

口 序列 : 序列 是 一 种 数据 结构 ， 其 中 的 元 素 带 编号 〈 编号 从 0 开始 )。 列 表 、 字 符 串 和 元 组 
都 属于 序列 ， 其 中 列表 是 可 变 的 ( 你 可 修改 其 内 容 )， 而 元 组 和 字符 串 是 不 可 变 的 〈 一 且 
创建 ， 内 容 就 是 固定 的 )。 要 访问 序列 的 一 部 分 ， 可 使 用 切片 操作 : 提供 两 个 指定 切片 起 
台 和 结束 位 置 的 索引 。 要 修改 列表 ， 可 给 其 元 素 赋值 ， 也 可 使 用 赋值 语句 给 切片 赋值 。 
















































































@ 与 list 一 样 ，tuple 实 际 上 也 不 是 函数 ， 而 是 类 型 。 而 且 同 样 ， 目 前 你 完全 可 以 不 考虑 这 一 点 。 
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口 成 员 资格 : 要 确定 特定 的 值 是 否 包 含 在 序列 〈 或 其 他 容器 ) 中 ， 可 使 用 运算 符 in。 将 运 
算 符 in 用 于 字符 串 时 情况 比较 特殊 一 一 这 样 可 查找 子 串 。 

口 方法: 一 些 内 置 类 型 ( 如 列表 和 字符 串 ， 但 不 包括 元 组 ) 提供 了 很 多 有 用 的 方法 。 方 法 
有 点 像 函 数 ， 只 是 与 特定 的 值 相关 联 。 方法 是 面向 对 象 编程 的 一 个 重要 方面 ， 这 将 在 第 7 


章 介 绍 。 























2.5.1 本章 介绍 的 新 函数 



































函 数 描 述 
len(seq) 返回 序列 的 长 度 
list(seq) 将 序列 转换 为 列表 
max(args) 返回 序列 或 一 组 参数 中 的 最 大 值 
min(args) 返回 序列 和 一 组 参数 中 的 最 小 值 
reversed(seq) 让 你 能 够 反 向 迭代 序列 
sorted(seq) 返回 一 个 有 序列 表 ， 其 中 包含 指定 序列 中 的 所 有 元 素 
tuple(seq) 将 序列 转换 为 元 组 





2.5.2 ”预告 





熟悉 序列 后 ， 接 下 来 将 介绍 字符 序列 ， 即 字符 串 。 


使 用 字符 串 











你 已 见 过 字符 串 , 并 且 知 道 如 何 创建 它们 。 你 还 学 习 了 如 何 使 用 索引 和 切片 来 访问 字符 串 中 
的 字符 。 本 章 将 介绍 如 何 使 用 字符 串 来 设置 其 他 值 的 格式 〈 比如 便于 打印 )， 并 大 致 了 解 使 用 字 
符 串 方法 可 完成 的 重要 任务 ， 如 拆 分 、 合 并 和 查找 等 。 


3.1 字符 串 基本 操作 


前 一 章 说 过 ， 所 有 标准 序列 操作 ( 索引 、 切 片 、 乘 法 、 成 员 资 格 检 查 、 长 度 、 最 小 值 和 最 
大 值 ) 都 适用 于 字符 串 , 但 别 忘 了 字符 串 是 不 可 变 的， 因此 所 有 的 元 素 赋值 和 切片 赋值 都 是 非 
法 的 。 

>>> website = 'http://www.python.org' 

>>> website[-3:] = “com' 

Traceback (most recent call last): 

File "<pyshell#19>", line 1, in ? 
website[-3:] = “com' 
TypeError: object doesn't support slice assignment 


























3.2 ”设置 字符 串 的 格式 : 精简 版 


如 果 你 是 Python 编 程 新 手 ， 可 能 不 会 用 到 所 有 的 Python 字 符 串 格式 设置 选项 ， 因 此 这 里 介绍 
精简 版 。 如 果 你 想 了 解 详情 ， 请 参阅 接 下 来 的 3.3 节 ， 否 则 只 需 阅 读本 节 ， 再 直接 跳 到 3.4 节 。 

将 值 转换 为 字符 串 并 设置 其 格式 是 一 个 重要 的 操作 , 需要 考虑 众多 不 同 的 需求 , 因此 随 着 时 
间 的 流逝 ，Python 提 供 了 多 种 字符 串 格 式 设置 方法 。 以 前 ， 主 要 的 解决 方案 是 使 用 字符 串 格式 设 
置 运算 符 一 一 百 分 号 。 这 个 运算 符 的 行为 类 似 于 C 语 言 中 的 经 典 函 数 printf: 在 % 左 边 指定 一 个 字 
符 串 〈 格 式 字符 串 )， 并 在 右边 指定 要 设置 其 格式 的 值 。 指 定 要 设置 其 格式 的 值 时 ， 可 使 用 单个 
值 ( 如 字符 串 或 数字 )， 可 使 用 元 组 ( 如 果 要 设置 多 个 值 的 格式 )， 还 可 使 用 字典 ( 这 将 在 下 一 章 
讨论 )， 其 中 最 常见 的 是 元 组 。 


>>> format = "Hello, %s. %s enough for ya?" 
>>> values = ('world', 'Hot') 

>>> format % values 

'Hello, world. Hot enough for ya? 
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上 述 格式 字符 串 中 的 %s 称 为 转换 说 明 符 ， 指 出 了 要 将 值 插 入 什么 地 方 。s 意 味 着 将 值 视 为 字 
符 串 进行 格式 设置 。 如 果 指 定 的 值 不 是 字符 串 ， 将 使 用 stz 将 其 转换 为 字符 串 。 其 他 说 明 符 将 导 
致 其 他 形式 的 转换 。 例 如 ，%.3f 将 值 的 格式 设置 为 包含 3 位 小 数 的 浮 点 数 。 

这 种 格式 设置 方法 现在 依然 管用 , 且 依 然 活 跃 在 众多 代码 中 , 因此 你 很 可 能 遇 到 。 可 能 遇 到 
的 另 一 种 解决 方案 是 所 谓 的 模板 字符 串 。 它 使 用 类 似 于 UNIX shell 的 语法 ， 旨 在 简化 基本 的 格式 
设置 机 制 ， 如 下 所 示 : 


>>> from string import Template 

>>> tmpl = Template("Hello, $who! $what enough for ya?") 
>>> tmpl.substitute(who="Mars", what="Dusty") 

‘Hello, Mars! Dusty enough for yay? 


包含 等 号 的 参数 称 为 关键 字 参 数 ， 第 6 音 将 详细 介绍 这 个 术语 。 在 字符 串 格式 设置 中 ,可 将 
关键 字 参 数 视 为 一 种 向 命名 替换 字段 提供 值 的 方式 。 
编写 新 代码 时 ， 应 选择 使 用 字符 串 方 法 format ， 它 融合 并 强化 了 早期 方法 的 优点 。 使 用 这 种 
方法 时 ,每 个 替换 字段 都 用 花 括 号 括 起 ， 其 中 可 能 包含 名 称 ,， 还 可 能 包含 有 关 如 何 对 相应 的 值 进 
行 转换 和 格式 设置 的 信息 。 

在 最 简单 的 情况 下 ， 替 换 字段 没有 名 称 或 将 索引 用 作 名 称 。 


>>> "{}, {} and {}".format("first", "second", "third") 
‘first, second and third 

>>> "{0}, {1} and {2}".format("first", "second", "third") 
‘first, second and third 


然而 ， 索 引 无 需 像 上 面 这 样 按 顺 序 排列 。 
>>> "{3} {0} {2} {1} {3} {0}".format("be", "not", "or", "to") 
"to be or not to be 


命名 字段 的 工作 原理 与 你 预期 的 完全 相同 。 


>>> from math import pi 
>>> "{name} is approximately {value:.2f}.".format(value=pi, name=" x.") 
"TT is approximately 3.14." 


当然 ， 关键 字 参数 的 排列 顺序 无 关 紧 要 。 在 这 里 ， 我 还 指定 了 格式 说 明 符 .2f， 并 使 用 冒号 
将 其 与 字段 名 隔 开 。 它 意味 着 要 使 用 包含 2 位 小 数 的 浮 点 数 格 式 。 如 果 没 有 指定 .2f, 结果 将 如 下 : 


>>> "{name} is approximately {value}.".format(value=pi, name=" xn.") 
"TT is approximately 3.141592653589793." 


最 后 ， 在 Python 3.6 中 ， 如 果 变 量 与 替换 字段 同名 ， 还 可 使 用 一 种 简写 。 在 这 种 情况 下 ， 可 
使 用 {字符 串 一 一 在 字符 串 前 面 加 上 f。 


>>> from math import e 
>>> f"Euler's constant is roughly {e}.”" 
"Euler's constant is roughly 2.718281828459045." 


在 这 里 , 创建 最 终 的 字符 串 时 ,将 把 蔡 换 字段 e 替 换 为 变量 e 的 值 。 这 与 下 面 这 个 更 明确 一 些 
的 表达 式 等 价 : 
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>>> "Euler's constant is roughly {e}.".format(e=e) 
"Euler's constant is roughly 2.718281828459045." 


3.3 ”设置 字符 串 的 格式 : 完整 版 


字符 串 格式 设置 涉及 的 内 容 很 多 , 因此 即便 是 这 里 的 完整 版 也 无 法 全 面 探索 所 有 的 细节 ， 而 
只 是 介绍 主要 的 组 成 部 分 。 这 里 的 基本 思想 是 对 字符 串 调 用 方法 format， 并 提供 要 设置 其 格式 的 i 
值 。 字 符 串 包含 有 关 如 何 设置 格式 的 信息 ， 而 这 些 信息 是 使 用 一 种 微型 格式 指定 语言 

( mini-language ) 指定 的 。 每 个 值 都 被 插入 字符 串 中 ， 以 替换 用 花 括号 括 起 的 蔡 换 字段 。 要 在 最 

终结 果 中 包含 花 括号 ， 可 在 格式 字符 串 中 使 用 两 个 花 括 号 ( 即 {{ 或 }} ) 来 指定 。 


>>> "{{ceci n'est pas une replacement field}}".format() 
"{ceci n'est pas une replacement field}" 


在 格式 字符 串 中 ， 最 激动 人 心 的 部 分 为 替换 字段 。 蔡 换 字段 由 如 下 部 分 组 成 ， 其 中 每 个 部 分 

都 是 可 选 的 。 

口 字段 名 : 索引 或 标识 符 ， 指 出 要 设置 哪个 值 的 格式 并 使 用 结果 来 替换 该 字段 。 除 指定 值 

外 ， 还 可 指定 值 的 特定 部 分 ， 如 列表 的 元 素 。 

D 转换 标志 : 跟 在 叹 号 后 面 的 单个 字符 。 当 前 支持 的 字符 包括 + ( 表示 repr )、s ( 表示 str ) 
和 a ( 表示 ascii )。 如 果 你 指定 了 转换 标志 ， 将 不 使 用 对 象 本 身 的 格式 设置 机 制 ， 而 是 使 

用 指定 的 函数 将 对 象 转换 为 字符 串 ， 再 做 进一步 的 格式 设置 。 

口 格式 说 明 符 : 跟 在 冒号 后 面 的 表达 式 ( 这 种 表达 式 是 使 用 微型 格式 指定 语言 表示 的 )。 格 
式 说 明 符 让 我 们 能 够 详细 地 指定 最 终 的 格式 ， 包 括 格式 类 型 ( 如 字符 串 、 浮 点 数 或 十 六 
进 制 数 ), 字段 宽度 和 数 的 精度 , 如 何 显示 符号 和 千 位 分 隔 符 , 以 及 各 种 对 齐 和 填充 方式 。 

下 面 详细 介绍 其 中 的 一 些 要 素 。 


3.3.1 蔡 换 字段 名 


在 最 简单 的 情况 下 ， 只 需 向 format 提 供 要 设置 其 格式 的 未 命名 参数 ， 并 在 格式 字符 串 中 使 用 
未 命名 字段 。 此 时 ,将 按 顺序 将 字段 和 参数 配对 。 你 还 可 给 参数 指定 名 称 ， 这 种 参数 将 被 用 于 相 
应 的 替换 字段 中 。 你 可 混合 使 用 这 两 种 方法 。 


>>> "{foo} {} {bar} {}".format(1, 2, bar=4, foo=3) 
142， 


还 可 通过 索引 来 指定 要 在 哪个 字段 中 使 用 相应 的 未 命名 参数 , 这样 可 不 按 顺 序 使 用 未 命名 
数 。 


>>> "{foo} {1} {bar} {0}".format(1, 2, bar=4, foo=3) 
32441 


然而 ， 不 能 同时 使 用 手工 编号 和 自动 编号 ， 因 为 这 样 很 快 会 变 得 混乱 不 堪 。 
你 并 非 只 能 使 用 提供 的 值 本 身 ， 而 是 可 访问 其 组 成 部 分 ( 就 像 在 常规 Python 代码 中 一 样 )， 
如 下 所 示 : 




































































































































































Ne 

















44 第 3 章 使 用 字符 串 





>>> fullname = ["Alfred", "Smoketoomuch"] 
>>> "Mr {name[1]}".format(name=fullname) 
"MT Smoketoomuch 

>>> import math 


>>> tmpl = "The {mod. name } module defines the value {mod.pi} for 工 " 


>>> tmpl.format(mod=math) 
"The math module defines the value 3.141592653589793 for zx" 








如 你 所 见 ， 可 使 用 索引 ,还 可 使 用 句点 表示 法 来 访问 导入 的 模块 中 的 方法 、 属 性 、 变 量 和 矣 


数 (看 起 来 很 怪异 的 变量 _name 包含 指定 模块 的 名 称 )。 
3.3.2 ”基本 转换 








指定 要 在 字段 中 包含 的 值 后 ,就 可 添加 有 关 如 何 设 置 其 格式 的 指令 了 。 首先 ,可 以 提供 一 个 


转换 标志 。 


>>> print("{pi!ls} {pilr} {pi!la}".format(pi=" 7 ")) 
T 'N' '\u03c0" 





上 述 三 个 标志 (s、r 和 a ) 指定 分 别 使 用 str、repr 和 ascii 进 行 转换 。 函 数 str 通 常 创建 外 观 
普通 的 字符 串 版 本 (这 里 没有 对 输入 字符 串 做 任何 处 理 )。 函 数 repr 和 尝试 创建 给 定 值 的 Python 表 
示 ( 这 里 是 一 个 字符 串 字 面 量 )。 函 数 ascii 创 建 只 包含 ASCII 字 符 的 表示 ， 类 似 于 Python 2 中 的 











repro 
































你 还 可 指定 要 转换 的 值 是 哪 种 类 型 ,更 准确 地 说 ,是 要 将 其 视 为 哪 种 类 型 。 例 如 ,你 可 能 提 
供 一 个 整数 ， 但 将 其 作为 小 数 进 行 处 理 。 为 此 可 在 格式 说 明 ( 即 冒 号 后 面 ) 使 用 字符 f ( 表示 定 





点 数 )。 


>>> "The number is {num}".format(num=42) 
"The number is 42" 

>>> "The number is {num:f}".format(num=42) 
“The number is 42.000000" 


你 也 可 以 将 其 作为 二 进 制 数 进行 处 理 。 


>>> "The number is {num:b}".format(num=42) 
“The number is 101010" 


这 样 的 类 型 说 明 符 有 多 个 ， 完 整 的 清单 见 表 3-1。 





表 3-1 字符 串 格式 设置 中 的 类 型 说 明 符 









































类 型 含义 
b 将 整数 表示 为 二 进 制 数 

& 将 整数 解读 为 Unicode 码 点 

d 将 整数 视 为 十 进 制 数 进行 处 理 ， 这 是 整数 默认 使 用 的 说 明 符 
e 使 用 科学 表示 法 来 表示 小 数 ( 用 e 来 表示 指数 ) 





























E 与 e 相 同 ， 但 使 用 E 来 表示 指数 
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( 续 ) 

类 型 含 义 

了 将 小 数 表示 为 定点 数 

F 与 f 相 同 ,但 对 于 特殊 值 (nan 和 inf ) ， 使 用 大 写 表示 

8 动 在 定点 表示 法 和 科学 表示 法 之 间 做 出 选择 。 这 是 默认 用 于 小 数 的 说 明 符 ， 但 在 默认 情况 下 至 少 有 1 位 小 数 

0 与 g 相 同 ,但 使 用 大 写 来 表示 指数 和 特殊 值 

n 与 8 相同 ， 但 插入 随 区 域 而 异 的 数字 分 隔 符 

0 将 整数 表示 为 八进制 数 

5 保持 字符 串 的 格式 不 变 ， 这 是 默认 用 于 字符 串 的 说 明 符 

将 整数 表示 为 十 六 进 制 数 并 使 用 小 写字 母 

X 与 x 相同 ,但 使 用 大 写字 母 

% 将 数 表示 为 百分比 值 ( 乘 以 100， 按 说 明 符 f 设 置 格式 ， 再 在 后 面 加 上 % ) 
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3.3.3” 宽度、 精度 和 干 位 分 隔 符 


设置 浮 点 数 (或 其 他 更 具体 的 小 数 类 型 ) 的 格式 时 ， 默 认 在 小 数 点 后 面 显示 6 位 小 数 ， 并 根 
据 需 要 设置 字段 的 宽度 ， 而 不 进行 任何 形式 的 填充 。 当 然 ， 这 种 默认 设置 可 能 不 是 你 想 要 的 , 在 
这 种 情况 下 ， 可 根据 需要 在 格式 说 明 中 指定 宽度 和 精度 。 

宽度 是 使 用 整数 指定 的 ， 如 下 所 示 : 


>>> "{num:10}".format(num=3) 

' 3， 

>>> "{name:10}".format(name="Bob") 
"Bob ， 


如 你 所 见 ， 数 和 字符 串 的 对 齐 方式 不 同 。 对 齐 将 在 下 一 节 介 绍 。 
精度 也 是 使 用 整数 指定 的 ， 但 需要 在 它 前 面 加 上 一 个 表示 小 数 点 的 句点 。 


>>> "Pi day is {pi:.2f}".format(pi=pi) 
"Pi day is 3.14"' 


这 里 显 式 地 指定 了 类 型 f， 因 为 默认 的 精度 处 理 方式 稍 有 不 同 〈 相 关 的 规则 请 参阅 “Python 
库 参 考 手 册 ”)。 当 然 ， 可 同时 指定 宽度 和 精度 。 


>>> "{pi:10.2f}".format(pi=pi) 
' 3.14， 


实际 上 ， 对 于 其 他 类 型 也 可 指定 精度 ， 但 是 这 样 做 的 情形 不 太 常见 。 
>>> "{:.5}".format("Guido van Rossum") 

"Quido 

最 后 ， 可 使 用 逗号 来 指出 你 要 添加 千 位 分 隔 符 。 


>>> 'One googol is {:,}'.format(10**100) 
'One googol is 10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,00 
0,000,000,000,000,000,000,000,000,000,000,000,000,000,000' 
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同时 指定 其 他 格式 设置 元 素 时 ， 这 个 逗号 应 放 在 宽度 和 表示 精度 的 句点 之 间 "。 


3.3.4” 符号、 对齐 和 用 0 填充 


有 很 多 用 于 设置 数字 格式 的 机 制 ， 比 如 便于 打印 整齐 的 表格 。 在 大 多 数 情况 下 ， 只 需 指定 宽 
度 和 精度 ,但 包含 负数 后 ， 原 本 漂亮 的 输出 可 能 不 再 漂亮 。 另 外 ， 正 如 你 已 看 到 的 ,字符 串 和 数 
的 默认 对 齐 方 式 不 同 。 在 一 栏 中 同时 包含 字符 串 和 数 时 ,你 可 能 想 修改 默认 对 齐 方式 。 在 指定 宽 
度 和 精度 的 数 前 面 ， 可 添加 一 个 标志 。 这 个 标志 可 以 是 零 、 加 号 、 减 号 或 空格 ， 其 中 零 表 示 使 用 
0 来 填充 数字 。 


>>> '{:010.2f}'.format(pi) 
'0000003.14" 


要 指定 左 对 齐 、 右 对 齐 和 居中 ， 可 分 别 使 用 <、> 和 人 ^。 


>>> print('{0:<10.2f}\n{0:^10.2f}\n{0:>10.2f}"' .format(pi)) 












































可 以 使 用 填充 字符 来 扩充 对 齐 说 明 符 ， 这 样 将 使 用 指定 的 字符 而 不 是 默认 的 空格 来 填充 。 


>>> "{:$°15}".format(" WIN BIG ") 
‘$$$ WIN BIG $$$ 





还 有 更 具体 的 说 明 符 =， 它 指定 将 填充 字符 放 在 符号 和 数字 之 间 。 
>>> print('{0:10.2f}\n{1:10.2f}'.format(pi, -pi)) 
3.14 
-3.14 
>>> print('{0:10.2f}\n{1:=10.2f}' .format(pi, -pi)) 
3.14 
3.14 


如 果 要 给 正 数 加 上 符号 ， 可 使 用 说 明 符 + ( 将 其 放 在 对 齐 说 明 符 后 面 )， 而 不 是 默认 的 -。 如 
果 将 符号 说 明 符 指定 为 空格 ， 会 在 正 数 前 面 加 上 空格 而 不 是 +。 
>>> print('{0:-.2}\n{1:-.2}'.format(pi，-pi)) # 默 认 设置 
3 
i 
>>> print('{0:+.2}\n{1:+.2}' .format(pi, -pi)) 
+3.。.1 
二 
>>> print('{0: .2}\n{1: .2}'.format(pi, -pi)) 
3.1 
ee 


需要 介绍 的 最 后 一 个 要 素 是 井 号 (#) 选项 ， 你 可 将 其 放 在 符号 说 明 符 和 宽度 之 间 ( 如 果 指 
定 了 这 两 种 设置 )。 这 个 选项 将 触发 男 一 种 转换 方式 ,转换 细节 随 类 型 而 异 。 例如， 对 于 二 进 制 、 
八进制 和 十 六 进 制 转换 ， 将 加 上 一 个 前 级 。 































































































Q@ 如 果 要 使 用 随 区 域 而 异 的 千 位 分 隔 符 ， 应 使 用 类 型 说 明 符 n。 
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>>> "{:b}".format(42) 
"101010" 

>>> "{:#b}".format(42) 
'0b101010' 


对 于 各 种 十 进 制 数 ， 它 要 求 必须 包含 小 数 点 对 于 类 型 g， 它 保留 小 数 点 后 面 的 零 )。 


>>> "{:g}" .format(42) 


2 
>>> "{:#g}" .format(42) 


'42.0000" 


在 代码 清单 3-1 所 示 的 示例 中 ， 我 分 两 次 设置 了 字符 串 的 格式 ， 其 中 第 一 次 旨 在 插入 最 终 将 
作为 格式 说 明 符 的 字段 宽度 。 这 是 因为 这 些 信 息 是 由 用 户 提供 的 , 我 无 法 以 硬 编码 的 方式 指定 字 
段 宽 度 。 


代码 清单 3-1 字符 串 格 式 设置 示例 
# 根据 指定 的 宽度 打印 格式 良好 的 价格 列表 








width = int(input('Please enter width: ')) 


price width = 
item width = width - price width 


header fmt = '{{:{}}}{{:>{}}}' .format(item width, price width) 














fmt = "{{:{}}}{{:>{}.2f}}"' .format(item width, price width) 
print('=" * width) 

print(header fmt.format('Item', 'Price')) 

print('-' * width) 

print(fmt.format('Apples' , 0.4)) 

print(fmt.format('Pears', 0.5)) 

print(fmt.format('Cantaloupes' , 1.92)) 

print(fmt.format('Dried Apricots (16 0z.)', 8)) 
print(fmt.format('Prunes (4 lbs.)', 12)) 

print('=" * width) 


这 个 程序 的 运行 情况 类 似 于 下 面 这 样 : 


Please enter width: 35 





Item Price 
Apples 0.40 
Pears 0.50 
Cantaloupes 1.92 
Dried Apricots (16 oz.) 8.00 


Prunes (4 1bs.) 12.00 
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3.4 字符 串 方 法 


前 面 介绍 了 列表 的 方法 ， 而 字符 串 的 方法 要 多 得 多 ， 因 为 其 很 多 方法 都 是 从 模块 string 那 里 
“继承 ”而 来 的 。( 在 较 早 的 Python 版 本 中 ， 这 些 方法 为 模块 string 中 的 函数 。 如 果 需 要 ， 现 在 依 
然 能 够 找到 这 些 函 数 。) 

字符 串 的 方法 太 多 了 ， 这 里 只 介绍 一 些 最 有 用 的 。 完 整 的 字符 串 方法 清单 请 参阅 附录 B。 这 
里 描述 字符 串 的 方法 时 ,将 列 出 其 他 相关 的 方法 。 如 果 这 些 相 关 方 法 在 本 章 做 了 介绍 , 将 用 “ 男 
请 参见 ”标识 ， 和 否则 用 “附录 B” 标 识 。 


模块 string 未 死 


虽然 字符 串 方法 完全 盖 住 了 模块 string 的 风头 ， 但 这 个 模块 包含 一 些 字 符 串 没有 的 常量 
和 函数 。 下 面 就 是 模块 stfing 中 几 个 很 有 用 的 常量 "。 
D string.digits: 包含 数字 0~ 9 的 字符 串 。 
D string.ascii letters: 包含 所 有 ASCII 字 母 ( 大 写 和 小 写 ) 的 字符 串 。 
口 string.ascii lowercase: 包含 所 有 小 写 ASCI[ 字 母 的 字符 串 。 
口 string.printable: 包含 所 有 可 打印 的 ASCII 字 符 的 字符 串 。 
D string.punctuation: 包含 所 有 ASCII 标 点 字符 的 字符 串 。 
D string.ascii_uppercase: 包含 所 有 大 写 ASCI 字 母 的 字符 串 。 
虽然 说 的 是 ASCII 字 符 ， 但 值 实际 上 是 未 解码 的 Unicode 字 符 串 。 










































































3.4.1 center 
方法 center 通 过 在 两 边 添加 填充 字符 (默认 为 空格 ) 让 字符 串 居 中 。 


>>> "The Middle by Jimmy Eat World".center(39) 

: The Middle by Jimmy Eat World 

>>> "The Middle by Jimmy Eat World".center(39, "*") 
'*****The Middle by Jimmy Eat World*****， 


附录 B: 1just、rjust 和 zfill。 








3.4.2 find 
方法 find 在 字符 串 中 查找 子 串 。 如 果 找到 ， 就 返回 子 串 的 第 一 个 字符 的 索引 ， 否 则 返回 -1。 


>>> 'With a moo-moo here, and a moo-moo there' .find( "moo ') 
7 
>>> title = "Monty Python's Flying Circus" 
>>> title.find('Monty ) 

0 
>>> title.find('Python’') 

















GD 有 关 模 块 的 详尽 描述 ， 请 参阅 “Python 库 参 考 手 册 ” 的 6.1 节 (https:/docs.python.org/3/library/string.html )。 
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6 

>>> title.find('Flying') 
15 

>>> title.find('Zirquss') 
过 人 


第 2 章 初 识 成 员 资 格 时 ,我 们 在 垃圾 邮件 过 滤器 中 检查 主题 是 否 包含 '$$$'。 这 种 检查 也 可 使 
用 find 来 执行 。( 在 Python 2.3 之 前 的 版 本 中 ， 这 种 做 法 也 管用 ， 但 in 只 能 用 于 检查 单个 字符 是 否 So 
包含 在 字符 串 中 。 ) 

>>> Subject = '$$$ Get Tich now!!! $$$" 


>>> subject.find('$$$') 
0 









































注意 ”字符 串 方法 find 返 回 的 并 非 布 尔 值 。 如 果 find 像 这 样 返回 0， 就 意味 着 它 在 索引 0 处 找到 
了 指定 的 子 串 。 

















你 还 可 指定 搜索 的 起 点 和 终点 ( 它们 都 是 可 选 的 )。 











>>> subject = '$$$ Get rich now!!! $$$" 

>>> subject.find('$$$') 

0 

>>> subject.find('$$$'，1) # 只 指定 了 起 点 

20 

>>> subject.find('!!!') 

16 

>>> subject.find('111',，0，16) # 同时 指定 了 起 点 和 终点 
= 看 


请 注意 ， 起 点 和 终点 值 ( 第 二 个 和 第 三 个 参数 ) 指定 的 搜索 范围 包含 起 点 ， 但 不 包含 终点 。 


这 是 Python 惯 常 的 做 法 。 
附录 B: rfind、index、rindex、count、startswith、endswith。 




















3.4.3 join 
join 是 一 个 非常 重要 的 字符 串 方法 ， 其 作用 与 split 相 反 ， 用 于 合并 序列 的 元 素 。 


>>> seq = [1, 2, 3, 4, 5] 
>>> sep = "+ 
>>> sep.join(seq) # 尝试 合并 一 个 数字 列表 
Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
TypeError: sequence item 0: expected string, int found 





>>> seq = [1', '2', '3', '4','5'] 
>>> sep.join(seq) # 合并 一 个 字符 串 列表 
"1+2+3+4+5" 

>>> dirs = '', 'Usr', 'bin', 'env’ 

>>> '/'.join(dirs) 

'/usr/bin/env’' 


>>> print('C:' + '\\'.join(dirs)) 
C:\usr\bin\env 
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如 你 所 见 ， 所 合并 序列 的 元 素 必须 都 是 字符 串 。 注 意 到 在 最 后 两 个 示例 中 , 我 使 用 了 一 系列 
目录 ， 并 按 UNIX 和 DOS/Windows 的 约定 设置 其 格式 : 通过 使 用 不 同 的 分 隔 符 ( 并 在 DOS 版 本 中 
添加 了 盘 符 ) 

另 请 参见 : split。 


3.4.4 lower 
方法 lower 返 回 字 符 串 的 小 写 版 本 。 


>>> 'Trondheim Hammer Dance' .lower() 
‘trondheim hammer dance' 


在 你 编写 代码 时 ， 如 果 不 想 区 分 字符 串 的 大 小 写 ( 即 忽 略 大 小 写 的 差别 )， 这 将 很 有 用 。 例 
如 ,假设 你 要 检查 列表 中 是 否 包含 指定 的 用 户 名 。 如 果 列 表 包 含 字符 串 'gumby' ， 而 指定 的 用 户 
名 为 'Gumby' ， 你 将 找 不 到 它 。 


>>> if 'Gumby' in ['gumby', 'smith', 'jones']: print('Found it!') 






































>>> 
当然 ,如 果 列表 包含 'Gumby' ， 而 指定 的 用 户 名 为 'gumby' 或 'GUMBY' ,结果 同样 找 不 到 。 对 于 
这 种 问题 ， 一 种 解决 方案 是 在 存储 和 搜索 时 ， 将 所 有 的 用 户 名 都 转换 为 小 写 。 这 样 做 的 代码 类 似 
于 下 面 这 样 : 


>>> name = “Qumby 
>>> names = [ "gumby ， 'smith', 'jones'] 
>>> if name.lower() in names: print('Found it!') 


























Found it! 
EPs 
另 请 参见 : islower、istitle、isupper、translate。 


附录 B: capitalize、casefold、swapcase、title、upper。 


一 个 与 lower 相 关 的 方法 是 title ( 参见 附录 B) 。 它 将 字符 串 转 换 为 词 首 大 写 ， 即 所 有 单 
词 的 首 字母 都 大 写 ， 其 他 字母 都 小 写 。 然 而 ， 它 确定 单词 边界 的 方式 可 能 导致 结果 不 合理 。 


>>> "that's all folks".title() 
"That'S All, Folks" 


另 一 种 方法 是 使 用 模块 string 中 的 函数 capwords。 


>>> import string 
>>> string.capwords("that's all, folks") 
That's All, Folks" 


当然 ， 要 实现 真正 的 词 首 大 写 (根据 你 采用 的 写作 风格 ， 冠 词 、 并 列 连 词 以 及 不 超过 5 个 
字母 的 介词 等 可 能 全 部 小 写 ) ， 你 得 自己 编写 代码 。 
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3.4.5 replace 
方法 replace 将 指定 子 串 都 蔡 换 为 另 一 个 字符 串 ， 并 返回 替换 后 的 结 


>>> 'This is a test'.replace('is', 'eez') 
'Theez eez a test 


如 果 你 使 用 过 字 处 理 程序 的 “查找 并 替换 ”功能 ， 一 定 知道 这 个 方法 很 有 用 。 
另 请 参见 : translate。 
附录 B: expandtabs。 








3.4.6 split 
split 是 一 个 非常 重要 的 字符 串 方法 ， 其 作用 与 join 相 反 ， 用 于 将 字符 串 拆 分 为 序列 。 


>>> '1+2+3+4+5"' .Split('+') 
[| 
>>> '/usr/bin/env' .split('/') 
['', 'usr', 'bin', 'env'] 
>>> 'Using the default'.split() 
['Using', 'the', 'default'] 





注意 ， 如 果 没 有 指定 分 隔 符 ,将 默认 在 单个 或 多 个 连续 的 空白 字符 ( 空格 、 制 表 符 、 换 行 符 
等 ) 处 进行 拆 分 。 

另 请 参见 : join。 

附录 B: partition、rpartition、rsplit、splitlines。 








3.4.7 strip 
方法 strip 将 字符 串 开头 和 末尾 的 空白 (但 不 包括 中 间 的 空白 ) 删除 ， 并 返回 删除 后 的 结果 。 
>》 internal whitespace is kept '.strip() 


'internal whitespace is kept' 


与 lower 一 样 , 需要 将 输入 与 存储 的 值 进行 比较 时 ，strip 很 和 用 。 回 到 前 面 介 绍 lower 时 使 用 
的 用 户 名 示例 ， 并 假定 用 户 输入 用 户 名 时 不 小 心 在 末尾 加 上 了 一 个 空格 。 


>>> names = ['gumby', 'smith', 'jones'] 
>>> name = 'gumby 
>>> if name in names: print('Found it!') 


>>> if name.strip() in names: print( "Found it!') 


Found it! 
>>> 


你 还 可 在 一 个 字符 串 参 数 中 指定 要 删除 哪些 字符 。 


>>> '*** SPAM * for * everyone!l!! ***'.strip(' *!') 
‘SPAM * for * eveTyone 
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这 个 方法 只 删除 开头 或 未 尾 的 指定 字符 ， 因 此 中 间 的 星 号 未 被 删除 。 
附录 B: lstrip、rstrip。 


3.4.8 translate 


方法 translate 与 replace 一 样 蔡 换 字符 串 的 特定 部 分 ,但 不 同 的 是 它 只 能 进行 单字 符 蔡 换 。 
这 个 方法 的 优势 在 于 能 够 同时 替换 多 个 字符 ， 因 此 效率 比 replace 高 。 

这 个 方法 的 用 途 很 多 ( 如 替换 换行 符 或 其 他 随 平台 而 异 的 特殊 字符 )， 但 这 里 只 介绍 一 个 比 
较 简 单 (也 有 点 傻 ) 的 示例 。 假设 你 要 将 一 段 英 语文 本 转换 为 带 有 德国 口音 的 版 本 ,为 此 必须 将 
字符 c 和 8 分 别 蔡 换 为 k 和 z。 

然而 ， 使 用 translate 前 必须 创建 一 个 转换 表 。 这 个 转换 表 指 出 了 不 同 Unicode 码 点 之 间 的 转 
换 关系 。 要 创建 转换 表 ， 可 对 字符 串 类 型 str 调 用 方法 maketrans， 这 个 方法 接受 两 个 参数 : 两 个 
长 度 相同 的 字符 串 , 它们 指定 要 将 第 一 个 字符 串 中 的 每 个 字符 都 替换 为 第 二 个 字符 串 中 的 相应 字 
符 "。 就 这 个 简单 的 示例 而 言 ， 代 码 类 似 于 下 面 这 样 : 

>>> table = str.maketrans('cs', 'kz') 

如 果 愿 意 ， 可 查看 转换 表 的 内 容 ， 但 你 看 到 的 只 是 Unicode 码 点 之 间 的 映射 。 


>>> table 
{115: 122，99: 107} 


创建 转换 表 后 ， 就 可 将 其 用 作 方 法 translate 的 参数 。 


>>> 'this is an incredible test'.translate(table) 
‘thiz iz an inkredible tezt' 


调用 方法 maketrans 时 ， 还 可 提供 可 选 的 第 三 个 参数 ， 指 定 要 将 哪些 字母 删除 。 例 如 ， 要 模 
仿 语 速 极 快 的 德国 口音 ， 可 将 所 有 的 空格 都 删除 。 


>>> table = str.maketrans('cs', 'kz', ' ') 
>>> 'this is an incredible test'.translate(table) 
‘thizizaninkredibletezt' 









































另 请 参见 : replace、1lower。 


3.4.9 判断 字符 串 是 否 满足 特定 的 条 件 

很 多 字符 串 方 法 都 以 is 打头 ， 如 isspace、isdigit 和 isupper， 它 们 判断 字符 串 是 否 具 有 特定 
的 性 质 〈 如 包含 的 字符 全 为 空白 、 数 字 或 大 写 )。 如 果 字 符 串 具备 特定 的 性 质 ， 这 些 方法 就 返回 
True， 和 否则 返回 False。 

附录 B: isalnum 、isalpha 、isdecimal 、isdigit 、isidentifier 、islower 、isnumeric 、 




















isprintable、isspace、istitle、isupper。 





























Q 也 可 传人 下 一 章 将 介绍 的 字典 ， 将 一 些 字符 映射 到 其 他 字符 〈 如 果 要 删除 这 些 字符 ， 则 映射 到 None )。 
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3.5 “小 结 


本 章 介 绍 了 字符 串 的 两 个 重要 方面 。 

口 字符 串 格式 设置 : 求 模 运 算 符 〈% ) 可 用 于 将 值 合并 为 包含 转换 标志 〈 如 %s ) 的 字符 串 ， 
这 让 你 能 够 以 众多 方式 设置 值 的 格式 ， 如 左 对 齐 或 右 对 齐 ， 指 定 字 段 宽 度 和 精度 ， 添 加 
符号 〈 正 号 或 员 号 ) 以 及 在 左边 填充 0 等 。 

口 字符 串 方法 : 字符 串 有 很 多 方法 , 有 些 很 有 用 ( 如 split 和 join ), 有 些 很 少 用 到 ( 如 istitle 
和 capitalize )。 


3.5.1 ”本章 介绍 的 新 函数 


























函 数 描 述 
string.capwords(s[，sep]) ”使 用 split 根 据 sep 拆 分 s， 将 每 项 的 首 字母 大 写 ， 再 以 空格 为 分 隔 符 将 它们 合并 起 来 
ascii(obj) 创建 指定 对 象 的 ASCII 表 示 








3.5.2 ”预告 


列表 、 字 符 串 和 字典 是 三 种 最 重要 的 Python 数据 类 型 。 你 已 经 学 习 了 列表 和 字符 串 ,， 接 下 来 
将 介绍 什么 呢 ?” 下 一 章 将 介绍 字典 , 它 不 仅 支 持 整数 索引 ,还 支持 其 他 类 型 的 键 ( 如 字符 串 或 元 
组 )。 另 外 ,字典 还 提供 了 一 些 方法 ， 但 是 数量 无 法 与 字符 串 相 比 。 














当 索 引 行 不 通 时 








需要 将 一 系列 值 组 合成 数据 结构 并 通过 编号 来 访问 各 个 值 时 , 列表 很 有 用 。 本 章 介绍 一 种 可 
通过 名 称 来 访问 其 各 个 值 的 数据 结构 。 这 种 数据 结构 称 为 映射 (mapping )。 字 典 是 Python 中 唯一 
的 内 置 映 射 类 型 ， 其 中 的 值 不 按 顺序 排列 ， 而 是 存储 在 键 下 。 键 可 能 是 数 、 字 符 串 或 元 组 。 


4.1 字典 的 用 途 


字典 的 名 称 指出 了 这 种 数据 结构 的 用 途 。 善 通 图 书 适合 按 从 头 到 尾 的 顺序 阅读 , 如 果 你 愿意 ， 
可 快速 翻 到 任何 一 页 ， 这 有 点 像 Python 中 的 列表 。 字 典 〈 日 常生 活 中 的 字典 和 Python 字典 ) 旨 在 
让 你 能 够 轻松 地 找到 特定 的 单词 ( 键 )， 以 获悉 其 定义 ( 值 )。 
在 很 多 情况 下 ， 使 用 字典 都 比 使 用 列表 更 合适 。 下 面 是 Python 字典 的 一 些 用 途 : 
口 表示 棋盘 的 状态 ， 其 中 每 个 键 都 是 由 坐标 组 成 的 元 组 ; 
口 存储 文件 修改 时 间 ， 其 中 的 键 为 文件 名 ; 
口 数字 电话 /地 址 敌 。 

假设 有 如 下 名 单 : 

>>> names = ['Alice', 'Beth', 'Cecil', 'Dee-Dee', 'Earl'] 

如 果 要 创建 一 个 小 型 数据 库 , 在 其 中 存储 这 些 人 的 电话 号 码 , 该 如 何 办 呢 ? 一 种 办 法 是 再 创 
建 一 个 列表 。 假 设 只 存储 四 位 的 分 机 号 ， 这 个 列表 将 类 似 于 : 

>>> numbers = ['2341', '9102', '3158', '0142', '5551'] 

创建 这 些 列 表 后 ， 就 可 像 下 面 这 样 查找 Cecil 的 电话 号 码 : 


>>> numbers[names.index('Cecil')] 
'3158" 


这 可 行 ,但 不 太 实 用 。 实 际 上 ， 你 希望 能 够 像 下 面 这 样 做 : 


>>> phonebook[ 'Cecil'] 
“3158 
















































































如 何 达 成 这 个 目标 呢 ? 只 要 phonebook 是 个 字典 就 行 了 。 


邮 
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4.2 


创建 和 使 用 字典 


字典 以 类 似 于 下 面 的 方式 表示 : 

phonebook = {'Alice': '2341', 'Beth': '9102', 'Cecil': '3258'} 

字典 由 键 及 其 相应 的 值 组 成 ， 这 种 键 - 值 对 称 为 项 (item )。 在 前 面 的 示例 中 ， 键 为 名 字 ， 而 
值 为 电话 号 码 。 每 个 键 与 其 值 之 间 都 用 冒号 ( : ) 分 隔 ， 项 之 间 用 逗号 分 隔 ， 而 整个 字典 放 在 花 
括号 内 。 空 字典 ( 没有 任何 项 ) 用 两 个 花 括号 表示 ， 类 似 于 下 面 这 样 : {}。 


证 才 
注意 
/i、 


4.2. 


这 4 


全 将 





在 字典 (以 及 其 他 上 映射 类 型 ) 中 ， 键 必须 是 独一无二 的 ， 而 字典 中 的 值 无 需 如 此 。 


1 项 数 dict 
可 使 用 函数 dict? 从 其 他 映射 


>>> items = [('name', "Gumby ')， 
>>> d = dict(items) 

>>> d 

{'age': 42, 'name': 'Gumby'} 
>>> d[ 'name'] 

'Gumby’ 





( 如 其 他 字典 ) 或 键 - 值 对 序列 创建 字典 。 
(age ，42)] 


还 可 使 用 关键 字 实 参 来 调用 这 个 函数 ， 如 下 所 示 : 


>>> d = dict(name="'Gumby', age=42) 


>>> d 
{'age': 42, 'name': 'Gumby'} 





尽管 这 可 能 是 函数 dict 最 常见 的 用 法 , 但 也 可 使 用 一 个 映射 实 参 来 调用 它 ， 这 将 创建 一 个 字 
其 中 包含 指定 映射 中 的 所 有 项 。 像 函数 1ist、tuple 和 str 一 样 ， 如 果 调 用 这 个 函数 时 没有 提 





中 唯 














4.2 


.2 ”基本 的 字典 操作 








供 任 何 实 参 ,将 返回 一 个 空 字典 。 从 映射 创建 字典 时 ， 如 果 该 映射 也 是 字典 ( 毕 竞 字典 是 Python 
的 内 置 映射 类 型 )， 可 不 使 用 函数 dict， 而 是 使 用 字典 方法 copy， 这 将 在 本 章 后 面 介绍 。 











字典 的 基本 行为 在 很 多 方面 都 类 似 于 序列 。 





口 del d[k] 删 除 键 为 k 的 项 。 





口 len(d) 返 回 字 典 d 包 含 的 项 ( 键 - 值 对 ) 数 。 
口 d[k] 返 回 与 键 k 相 关联 的 值 。 
口 d[k] = v 将 值 v 关 联 到 键 k。 


口 k in d 检 查 字 典 d 是 否 包含 键 为 k 的 项 。 


虽然 字典 和 列表 有 多 个 相同 之 处 ， 但 也 有 一 些 重要 的 不 同 之 处 。 

















GD 与 ljist、tuple 和 str 一 样 ，dict 展 


实 根本 就 不 是 函数 ， 而 是 一 个 类 。 
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口 键 的 类 型 : 字典 中 的 键 可 以 是 整数 ， 但 并 非 必 须 是 整数 。 字 典 中 的 键 可 以 是 任何 不 可 变 
的 类 型 ， 如 浮 点 数 ( 实数 ) 字符 串 或 元 组 。 
口 自动 添加 : 即便 是 字典 中 原本 没有 的 键 ， 也 可 以 给 它 赋值 ， 这 将 在 字典 中 创建 一 个 新 项 。 
然而 ， 如 果 不 使 用 append 或 其 他 类 似 的 方法 ， 就 不 能 给 列表 中 没有 的 元 素 赋值 。 




















口 成 员 资格 : 表达 式 k in d( 其 中 d 是 一 个 字典 ) 查找 的 是 键 而 不 是 值 ， 而 表达 式 v in 1 (其 





中 1 是 一 个 列表 ) 查找 的 是 值 而 不 是 索引 。 这 看 似 不 太一 致 ， 但 你 习惯 后 就 会 觉得 相当 自 
然 。 毕 竞 如 果 字 典 包含 指定 的 键 , 检查 相应 的 值 就 很 容易 。 








提示 相 比 于 检查 列表 是 否 包 含 指定 的 值 ， 检 查 字典 是 否 包 含 指定 的 键 的 效率 更 高 。 数 据 结构 
越 大 ， 效 率 差距 就 越 大 。 














前 述 第 一 点 ( 键 可 以 是 任何 不 可 变 的 类 型 ) 是 字典 的 主要 优点 。 第 二 点 也 很 重要 ,下面 的 示 
例 说 明了 这 种 差别 : 
>>> x = [] 


>>> x[42] =“Foobar' 


Traceback (most recent call last): 


File "<stdin>", line 1 


We 


IndexError: list assignment index out of range 


23 = 
>>> x[42] = "Foobar"' 
>>> x 


{42: 'Foobar'} 


首先 ， 我 尝试 将 字符 








和 'Foobar ' 赋 给 一 个 空 列表 中 索引 为 42 的 元 素 。 这 和 





显然 不 可 能 ， 因 为 


没有 这 样 的 元 素 。 要 让 这 种 操作 可 行 ， 初 始 化 x 时 ， 必 须 使 用 [None] * 43 之 类 的 代码 ， 而 不 能 

用 []。 然 而 ,， 接 下 来 的 尝试 完全 可 行 。 这 次 我 将 'Foobar' 赋 给 一 个 空 字典 的 键 42; 如 你 所 见 ， 这 

样 做 一 点 问题 都 没有 : 在 这 个 字典 中 添加 了 一 个 新 项 ， 我 得 偿 了 。 
代码 清单 4-1 列 出 了 创建 电话 短 数 据 库 的 代码 。 


代码 清单 4-1 字典 示例 
# 一 个 简单 的 数据 库 


# 一 个 将 人 名 用 作 键 的 字典 
# 字典 包含 键 'phone' 和 'ad 


people = { 
'Alice': { 
‘phone': “2341 ， 
"addr': "Foo dri 
}, 
'Beth': { 


‘phone': “9102 ， 
"addr': 'Bar str 


外 





。 每 个 人 都 用 一 个 字典 表示 ， 
dr ， 它 们 分 别 与 电话 号 码 和 地 址 相关 联 


Ve 23" 


eet 42" 
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Cetil zf{ 
‘phone': '3158', 
‘addr': 'Baz avenue 90' 


} 
} 
# 电话 号 码 和 地 址 的 描述 性 标签 ， 供 打印 输出 时 使 用 
labels = { 
'phone': “phone number ， 
“addr : address， 
} 





name = input('Name: ') 


# 要 查找 电话 号 码 还 是 地 址 ? 
request = input('Phone number (p) or address (a)? ') 


# 使 用 正确 的 键 : 
if request == 'p': key = phone、 
if request == 'a': key = 'addr' 


# 仅 当 名 字 是 字典 包含 的 键 时 才 打 印信 息 : 

if name in people: print("{}'s {} is {}.".format(name, labels[key], people[name][key])) 
这 个 程序 的 运行 情况 类 似 于 下 面 这 样 : 

Name: Beth 


Phone number (p) or address (a)? p 
Beth's phone number is 9102. 





4.2.3 将 字符 串 格式 设置 功能 用 于 字典 


第 3 章 介绍 过 ， 可 使 用 字符 串 格式 设置 功能 来 设置 值 的 格式 ， 这 些 值 是 作为 命名 或 非 命名 参 
数 提供 给 方法 format 的 。 在 有 些 情况 下 ,通过 在 字典 中 存储 一 系列 命名 的 值 ， 可 让 格式 设置 更 容 
易 些 。 例 如 ， 可 在 字典 中 包含 各 种 信息 ， 这 样 只 需 在 格式 字符 串 中 提取 所 需 的 信息 即 可 。 为 此 ， 
必须 使 用 format_map 来 指出 你 将 通过 一 个 映射 来 提供 所 需 的 信息 。 

>>> phonebook 

{'Beth': '9102', 'Alice': '2341', 'Cecil': '3258'} 

>>> "Cecil's phone number is {Cecil}.".format map(phonebook) 

"Cecil's phone number is 3258." 


像 这 样 使 用 字典 时 , 可 指定 任意 数量 的 转换 说 明 符 , 条 件 是 所 有 的 字段 名 都 是 包含 在 字典 中 
的 键 。 在 模板 系统 中 ， 这 种 字符 串 格 式 设置 方式 很 有 用 〈 下 面 的 示例 使 用 的 是 HTML )。 


>>> template = '''<html> 

.. <head><title>{title}</title></head> 
... <body> 

.. <h1i>{title}</h1> 

. <p>{text}</p> 
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.</body> "" 
>>> data = {'title': 'My Home Page', 'text': "Welcome to my home page!'} 
>>> print(template.format map(data)) 
<html> 
<head><title>My Home Page</title></head> 
<body> 
<h1>My Home Page</h1> 
<p>Welcome to my home pagel</p> 
</body> 





4.2.4 字典 方法 


与 其 他 内 置 类 型 一 样 , 字典 也 有 方法 。 字典 的 方法 很 有 用 , 但 其 使 用 频率 可 能 没有 列表 和 字 


符 串 的 方法 那样 高 。 你 可 大 致 浏览 一 下 本 节 ， 了 解 字 典 提供 





再 回 过 头 来 详细 研究 其 工作 原理 。 


1. clear 








t 了 哪些 方法 ， 等 需要 使 用 特定 方法 时 


方法 clear 删 除 所 有 的 字典 项 , 这 种 操作 是 就 地 执行 的 ( 就 像 list.sort 一 样 ), 因此 什么 都 不 


返回 (或 者 说 返回 None )。 

















>>> d= {} 

>>> d[ name'] = 'Gumby' 

>>> d[ "age'] = 42 

>>> d 

{ age': 42, 'name': 'Gumby'} 
>>> returned value = d.clear() 
>>> d 

{} 

>>> print(returned value) 
None 

这 为 何 很 有 用 呢 ? 我 们 来 看 两 个 场景 。 下 面 是 第 
>>> x = 全 

>>> y = X 

>>> x[ key'] = value' 

>>> y 

{'key': 'value'} 

>>> x = {{ 

>>> x = {{ 

{'key': 'value'} 

下 面 是 第 二 个 场景 : 

>>> x = {} 

S35 Y EX 

>>> x['key'] = "value' 

>>> y 


{'key': 'value'} 
>>> x.clear() 
>>> y 


甘 


全 
电 


一 个 场景: 
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在 这 两 个 场景 中 ，x 和 y 最 初 都 指向 同一 个 字典 。 在 第 一 个 场景 中 ， 我 通过 将 一 个 空 字典 赋 
给 x 来 “清空 ” 它 。 这 对 y 没 有 任何 影响 ， 它 依然 指向 原来 的 字典 。 这 种 行为 可 能 正 是 你 想 要 的 ， 
但 要 删除 原来 字典 的 所 有 元 素 , 必须 使 用 clear。 如 果 这 样 做 , y 也 将 是 空 的 , 如 第 二 个 场景 所 示 。 


2. copy 








方法 copy 返 回 一 个 新 字典 , 其 包含 的 键 - 值 对 与 原来 的 字典 相同 ( 这 个 方法 执行 的 是 浅 复制 ， 
因为 值 本 身 是 原件 ， 而 非 副本 )。 


>>> x = {'user 
>>> y = x.copy 
>>> y['usernam 
>>> y['machine 
>>> y 

{ 们 UseTname ' : 
>>> X 

{ 们 UseTname ': 








name': "admin'， "machines': ['foo', 'bar', 'baz']} 
() 

e'] = "mlh' 

s'].remove('bar') 


'mlh', 'machines': ['foo', 'baz']} 


admin', 'machines': ['foo', 'baz']} 


如 你 所 见 ， 当 替换 副本 中 的 值 时 ， 原 件 不 受 影响 。 然 而 ， 如 果 修 改 副 本 中 的 值 ( 就 地 修改 而 
不 是 替换 )， 原 件 也 将 发 生变 化 ， 因 为 原件 指向 的 也 是 被 修改 的 值 ( 如 这 个 示例 中 的 'machines" 


列表 所 示 )。 





为 避免 这 种 问题 ， 一 种 办 法 是 执行 深 复制 ， 即 同时 复制 值 及 其 包含 的 所 有 值 ， 等 等 。 为 此 ， 
可 使 用 模块 copy 中 的 函数 deepcopy。 


>>> from Copy 
>>> d = 
>>> d[ names' 


>>> C = d.copy 
>>> dc = deepc 
>>> d[ names' 
>>> Cc 
{'names': ['A 
>>> dc 





{'names': ['A 


3. fromkeys 


import deepcopy 


['Alfred' , 'Bertrand'] 


fred', 'Bertrand', 'Clive']} 


fred', 'Bertrand' ]} 








方法 fromkeys 创 建 一 个 新 字典 ， 其 中 包含 指定 的 键 ， 且 每 个 键 对 应 的 值 都 是 None。 


>>> {}.fromkey 
{'age': None, 


s(['name', 'age'] 
'name': None} 


这 个 示例 首先 创建 了 一 个 空 字典 ,再 对 其 调用 方法 fromkeys 来 创建 男 一 个 字典 , 这 显得 有 点 
多 余 。 你 可 以 不 这 样 做 ， 而 是 直接 对 dict ( 前 面 说 过 ，dict 是 所 有 字典 所 属 的 类 型 。 类 和 类 型 将 


在 第 7 章 详细 讨论 
>>> dict.fromk 
{'age': None, 





























) 调用 方法 fromkeys。 


eys(['name', 'age']) 
'name': None} 





如 果 你 不 想 使 用 默认 值 None ， 可 提供 特定 的 值 。 


>>> dict.fromk 
{'age': '(unkn 


eys(['name', 'age'], '(unknown)') 
own)', 'name': '(unknown)'} 
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4. get 
方法 get 为 访问 字典 项 提供 了 宽松 的 环境 。 通 常 ， 如 果 你 试图 访问 字典 中 没有 的 项 ， 将 引发 
错误 。 


>>> d= {} 

>>> print(d['name' ]) 

Traceback (most recent call last): 
File "<stdin>", line 1, in ? 

KeyError: “name 


而 使 用 get 不 会 这 样 : 
')) 























r 





>>> print(d.get('na 
None 


如 你 所 见 ， 使 用 get 来 访问 不 存在 的 键 时 ， 没 有 引发 异常 ， 而 是 返回 None。 你 可 指定 “默认 ” 
值 ， 这 样 将 返回 你 指定 的 值 而 不 是 None。 


>>> d.get('name', 'N/A') 
"N/A" 


om 














如 果 字 典 包含 指定 的 键 ，get 的 作用 将 与 普通 字典 查找 相同 。 


>>> d[ name'] = "Eric' 
>>> d.get('name') 
EC 


代码 清单 4-2 是 代码 清单 4-1 所 示 程 序 的 修改 版 本 ， 它 使 用 了 方法 get 来 访问 “数据 库 ” 


代码 清单 4-2 字典 方法 示例 
# 一 个 使 用 get() 的 简单 数据 库 




















# 在 这 里 插入 代码 清单 4-1 中 的 数据 库 (字典 people) 


labels = { 
'phone': “phone number ， 
"addr : ‘address' 


} 
name = input('Name: ') 


要 查找 电话 号 码 还 是 地 址 ? 
request = input('Phone number (p) or address (a)? ') 


使 用 正确 的 键 : 

key = request # 如 果 request 既 不 是 'p' 也 不 是 'a' 
if request == 'p': key = 'phone’ 

if request == 'a': key = add 


使 用 get 提 供 默认 值 

person = people.get(name, {} 
abel = labels.get(key, key) 
result = person.get(key, 'not available') 











print("{}'s {} is {}.".format(name, label, result)) 
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下 面 是 这 个 程序 的 运行 情况 。 注 意 到 get 提 高 了 灵活 性 ， 让 程序 在 用 户 输入 的 值 出 乎 意料 时 
也 能 妥善 处 理 。 


Name: Gumby 
Phone number (p) or address (a)? batting average 
Gumby's batting average is not available. 





5. items 
方法 items 返 回 一 个 包含 所 有 字典 项 的 列表 ， 其 中 每 个 元 素 都 为 (key, value) 的 形式 。 字典 项 
在 列表 中 的 排列 顺序 不 确定 。 


>>> d = {'title': "Python Web Site'’, 'url': 'http://www.python.org', 'spam': 0} 4 


>>> d.items() 
dict items([('url', 'http://www.python.org'), ('spam', 0), ('title', "Python Web Site')]) 


返回 值 属 于 一 种 名 为 字典 视图 的 特殊 类 型 。 字 典 视 图 可 用 于 和 迭代 ( 迭代 将 在 第 5 章 详 细 介 绍 )。 
另外 ， 你 还 可 确定 其 长 度 以 及 对 其 执行 成 员 资格 检查 。 


>>> it = d.items() 
>>> len(it 
3 

>>> ('spam'’, 0) in it 
True 


视图 的 一 个 优点 是 不 复制 ， 它 们 始终 是 底层 字典 的 反映 ， 即 便 你 修改 了 底层 字典 亦 如 此 。 


>>> d[ "spam'] = 1 

>>> ('spam'’, 0) in it 
False 

>>> d['spam'] = 0 

>>> ('spam'’, 0) in it 
True 


然而 , 如 果 你 要 将 字典 项 复制 到 列表 中 ( 在 较 旧 的 Python 版 本 中 , 方法 items 就 是 这 样 做 的 )， 
可 自己 动手 做 。 


>>> list(d.items()) 
[('spam', 0), ('title', "Python Web Site'’), ('url', 'http://www.python.org')] 


















































6. keys 
方法 keys 返 回 一 个 字典 视图 ， 其 中 包含 指定 字典 中 的 键 。 
7. pop 





方法 pop 可 用 于 获取 与 指定 键 相关 联 的 值 ， 并 将 该 键 - 值 对 从 字典 中 删除 。 


> > 
>>> d.pop('x') 

和 

>>> d 

{'y': 2} 


8. popitem 
方法 popitem 类 似 于 list.pop， 但 list.pop 弹 出 列表 中 的 最 后 一 个 元 素 ， 而 popitem 随 机 地 弹 
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出 一 个 字典 项 ， 因 为 字典 项 的 顺序 是 不 确定 的 , 没有 “最 后 一 个 元 素 ” 的 概念 。 如 果 你 要 以 高 效 
地 方式 逐个 删除 并 处 理 所 有 字典 项 ， 这 可 能 很 有 用 ， 因 为 这 样 无 需 先 获取 键 列 表 。 


>>> d = {'url': 'http://www.python.org', 'spam': 0, 'title': “Python Web Site'} 
>>> d.popitem() 

("url', 'http://www.python.org') 

>>> d 

{'spam': 0, 'title': “Python Web Site'} 


虽然 popitem 类 似 于 列表 方法 pop， 但 字典 没有 与 append ( 它 在 列表 末尾 添加 一 个 元 素 ) 对 应 
的 方法 。 这 是 因为 字典 是 无 序 的 ， 类 似 的 方法 毫 无 意义 。 





提示 如 果 希 望 方法 popitem 以 可 预测 的 顺序 弹出 字典 项 ， 请 参阅 模块 Collections 中 的 
OrderedDict 类 。 


9. setdefault 
方法 setdefault 有 点 像 get， 因 为 它 也 获取 与 指定 键 相关 联 的 值 ， 但 除 此 之 外 ，setdefault 
还 在 字典 不 包含 指定 的 键 时 ， 在 字典 中 添加 指定 的 键 - 值 对 。 








>>> d= {} 

>>> d.setdefault('name', 'N/A') 
"N/A" 

>>> d 


{'name': 'N/A'} 

>>> d['name'] = "Gumby’ 

>>> d.setdefault('name', 'N/A') 
‘Gumby’ 
>>> d 
{'name': 'Gumby'} 


如 你 所 见 ， 指 定 的 键 不 存在 时 ，setdefault 返 回 指定 的 值 并 相应 地 更 新 字典 。 如 果 指 定 的 键 
存在 ， 就 返回 其 值 ， 并 保持 字典 不 变 。 与 get 一 样 ， 值 是 可 选 的 ， 如果 没 有 指定 ， 默 认为 None。 




















>>> d= {} 

>>> print(d.setdefault('name')) 
None 

>>> d 


{'name': None} 


提示 。 如果 希 望 有 用 于 整个 字典 的 全 局 默认 值 ， 请 参阅 模块 collections 中 的 defaultdict 类 。 


10. update 
方法 update 使 用 一 个 字典 中 的 项 来 更 新 男 一 个 字典 。 
>>>d={ 


‘title': “Python Web Site ， 
‘url': 'http://www.python.org', 
‘changed': 'Mar 14 22:09:15 MET 2016" 


} 
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>>> x = {'title': “Python Language Website'} 

>>> d.update(x) 

>>> d 

{ url : 'http://www.python.org', "changed ' : 

'Mar 14 22:09:15 MET 2016', 'title': “Python Language Website'} 


对 于 通过 参数 提供 的 字典 ,将 其 项 添加 到 当前 字典 中 。 如 果 当 前 字典 包含 键 相同 的 项 ， 就 替 





换 它 。 


update 时 ， 可 向 它 提 供 一 个 映射 、 一 个 由 键 - 值 对 组 成 的 序列 〈 或 其 他 可 迭代 对 象 ) 或 关键 字 参 数 。 


可 像 调 用 本 章 前 面 讨论 的 函数 dict ( 类 型 构造 函数 ) 那样 调用 方法 update。 这 意味 着 调用 


11. values 4 


方法 values 返 回 一 个 由 字典 中 的 值 组 成 的 字典 视图 。 不 同 于 方法 keys， 方 法 values 返 回 的 视 





图 可 能 包含 重复 的 值 。 


4. 


3 


OP 


>>> d.values() 
dict values([1, 2, 3, 1]) 


小 结 


本 章 介 绍 了 如 下 内 容 。 

口 映射 : 映射 让 你 能 够 使 用 任何 不 可 变 的 对 象 ( 最 常用 的 是 字符 串 和 元 组 ) 来 标识 其 元 素 。 
Python 只 有 一 种 内 置 的 映射 类 型 ， 那 就 是 字典 。 

口 将 字符 串 格式 设置 功能 用 于 字典 : 要 对 字典 执行 字符 串 格式 设置 操作 ， 不 能 使 用 format 
和 命名 参数 ， 而 必须 使 用 format_map。 

口 字典 方法 : 字典 有 很 多 方法 ， 这 些 方法 的 调用 方式 与 列表 和 字符 串 的 方法 相同 。 














4.3.1 本 章 介 绍 的 新 函数 


函 数 描述 





dict(seq) 从 键 - 值 对 、 有 映射 或 关键 字 参 数 创建 字 ; 





将 


4.3.2 ”预告 


记 


和 但 





至 此 ,你 对 Python 基本 数据 类 型 以 及 如 何 使 用 它们 来 创建 表达 式 有 了 深入 的 认识 。 你 可 能 还 


时 ， 第 1 章 提 到 计算 机 程序 还 包含 另 一 个 要 素 一 一 语句 。 下 一 章 将 详细 讨论 。 











条 件 、 循 环 及 其 他 语句 











你 现在 肯定 有 点 不 耐烦 了 。 这 些 数据 类 型 确实 好 ， 可 你 却 没 法 使 用 它们 来 做 什么 , 不 是 吗 ? 

下 面 加 快 点 速度 。 你 已 见 过 几 种 语句 (print 语 句 、import 语 句 和 赋值 语句 )， 先 来 看 看 这 些 
语句 的 其 他 一 些 用 法 ,再 深入 探讨 条 件 语句 和 循环 语句 。 然 后 ,我 们 将 介绍 列表 推导 ,它们 虽然 
是 表达 式 ， 但 工作 原理 几乎 与 条 件 语句 和 循环 语句 相同 。 最 后 ， 我 们 将 介绍 pass 、del 和 exec。 























5.1 有 再 谈 print 和 import 





随 着 你 对 Python 的 认识 越 来 越 深 入 , 可 能 发 现 有 些 你 自 以 为 很 熟悉 的 方面 隐藏 着 让 人 惊喜 的 
特性 。 下 面 就 来 看 看 print 和 ;import 隐 藏 的 几 个 特性 。 虽 然 print 现 在 实际 上 是 一 个 函数 ， 但 以 前 
却 是 一 种 语句 ， 因 此 在 这 里 进行 讨论 。 





提示 “对 很 多 应 用 程序 来 说 ， 使 用 模块 1ogging 来 写 入 日 志 比 使 用 print 更 合适 ， 详 情 请 参阅 第 19 章 。 


5.1.1 打印 多 个 参数 


你 知道 ，print 可 用 于 打印 一 个 表达 式 ， 这 个 表达 式 要 么 是 字符 串 ， 要 么 将 自动 转换 为 字符 
串 。 但 实际 上 ， 你 可 同时 打印 多 个 表达 式 ， 条件 是 用 逗号 分 隔 它 们 : 

>>> print('Age:', 42) 

Age: 42 

如 你 所 见 ， 在 参数 之 间 插 入 了 一 个 空格 字符 。 在 你 要 合并 文本 和 变量 值 ， 而 又 不 想 使 用 字符 
串 格式 设置 功能 时 ， 这 种 行为 很 有 帮助 。 

>>> name = 'Gumby’ 

>>> salutation = “MT. 

>>> greeting = “Hello， 


>>> print(greeting, salutation, name) 
Hello, Mr. Gumby 


如 果 字 符 串 变量 greeting 不 包含 逗号 ， 如 何在 结果 中 添加 呢 ? 你 不 能 像 下 面 这 样 做 : 


print(greeting, ',', salutation, name) 
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因为 这 将 在 逗号 前 添加 一 个 空格 。 下 面 是 一 种 可 行 的 解决 方案 : 
print(greeting + ',', salutation, name) 
它 将 逗号 和 变量 greeting 相 加 。 如 果 需 要 ， 可 自 定 义 分 隔 符 : 


>>> print("I", "wish", "to", "register", "a", "complaint", sep=" ") 
I wish to register a complaint 


你 还 可 自 定义 结束 字符 串 , 以 替换 默认 的 换行 符 。 例 如 , 如 果 将 结束 字符 串 指 定 为 空 字符 串 ， 
以 后 就 可 继续 打印 到 当前 行 。 


print('Hello,', end="') 
print('world!') 


上 述 代码 打印 Hello，world1®。 


5.1.2 ”导入 时 重 命 名 
从 模块 导入 时 ， 通常 使 用 


import somemodule 


或 使 用 


from somemodule import somefunction 

















from somemodule import somefunction, anotherfunction, yetanotherfunction 


























from somemodule import * 


仅 当 你 确定 要 导入 模块 中 的 一 切 时 , 采用 使 用 最 后 一 种 方式 。 但 如 果 有 两 个 模块 ,它们 都 包 
含 函 数 open， 该 如 何 办 呢 ? 你 可 使 用 第 一 种 方式 导入 这 两 个 模块 ， 并 像 下 面 这 样 调用 函数 : 


module1.open(...) 
module2.open(...) 























别名 的 例子 : 


>>> import math as foobar 
>>> foobar.sqrt(4) 
2:0 


下 面 是 一 个 导入 特定 函数 并 给 它 指定 别名 的 例子 : 


>>> from math import sqrt as foobar 
>>> foobar(4) 
2.0 
































@ 仅 当 这 些 代码 包含 在 脚本 中 时 才 如 此 。 在 交互 式 Python 会 话 中 ， 将 分 别 执行 每 条 语句 并 打印 其 内 容 。 
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对 于 前 面 的 函数 open， 可 像 下 面 这 样 导入 它们 : 


from module1 import open as open1 
from module2 import open as open2 


注意 有 些 模块 ( 如 os.path ) 组 成 了 层次 结构 ( 一 个 模块 位 于 另 一 个 模块 中 )。 有 关 模块 结构 
的 详细 信息 ， 请 参阅 10.1.4 节 。 


5.2 ”赋值 魔法 
即便 是 不 起 眼 的 赋值 语句 也 列 藏 着 一 些 使 用 穿 门 。 
5.2.1 序列 解 包 


赋值 语句 你 见 过 很 多 ,有 的 给 变量 赋值 , 还 有 的 给 数据 结构 的 一 部 分 (如 列表 中 的 元 素 和 切 
片 ， 或 者 字典 项 ) 赋值 ， 但 还 有 其 他 类 型 的 赋值 语句 。 例 如 ， 可 同时 (并行 ) 给 多 个 变量 赋值 : 
>>> Xx, y, ZzZ = 1, 2, 3 


>>> print(x, y, z) 
123 


看 似 用 处 不 大 ? 看 好 了 ， 使 用 这 种 方式 还 可 交换 多 个 变量 的 值 。 


> YE 隐 
>»> Print(xy YZ) 
213 


实际 上 ， 这 里 执行 的 操作 称 为 序列 解 包 (或 可 迭代 对 象 解 包 ): 将 一 个 序列 〈 或 任何 可 迭代 
对 象 ) 解 包 ， 并 将 得 到 的 值 存储 到 一 系列 变量 中 。 下 面 用 例子 进行 解释 。 

>>> Values = 1, 2, 3 

>>> Values 

(1, 2, 3) 

>>> x, y, z = values 

>>> x 

* 


这 在 使 用 返回 元 组 (或 其 他 序列 或 可 迭代 对 象 ) 的 函数 或 方法 时 很 有 用 。 假设 要 从 字典 中 随 
便 获取 (或 删除 ) 一 个 键 - 值 对 ， 可 使 用 方法 popitem， 它 随便 获取 一 个 键 - 值 对 并 以 元 组 的 方式 
返回 。 接 下 来 ， 可 直接 将 返回 的 元 组 解 包 到 两 个 变量 中 。 

>>> scoundrel = { name': "Robin' ， 'girlfriend': 'Marion'} 

>>> key, value = scoundrel.popitem() 

>>> key 

“girlfriend 

>>> Value 

‘Marion" 


这 让 函数 能 够 返回 被 打包 成 元 组 的 多 个 值 , 然后 通过 一 条 赋值 语句 轻松 地 访问 这 些 值 。 要 解 
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包 的 序列 包含 的 元 素 个 数 必须 与 你 在 等 号 左边 列 出 的 目标 个 数 相 同 ， 和 否则 Python 将 引发 异常 。 
> 攻 让 区 站 六 坟 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: need more than 2 values to unpack 
> A el 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: too many values to unpack 


可 使 用 星 号 运算 符 (* ) 来 收集 多 余 的 值 ， 这 样 无需 确 保值 和 变量 的 个 数 相同 ， 如 下 例 所 示 : 


>>> a, b, *rest = [1, 2, 3, 4] 
>>> rest 
[3, 4] 


还 可 将 带 星 号 的 变量 放 在 其 他 位 置 。 

>>> name = "Albus Percival Wulfric Brian Dumbledore" 

>>> first, *middle, last = name.split() 

>>> middle 

['Percival', 'Wulfric', "Brian ] 

赋值 语句 的 右边 可 以 是 任何 类 型 的 序列 , 但 带 星 号 的 变量 最 终 包含 的 总 是 一 个 列表 。 在 变量 
和 值 的 个 数 相 同时 亦 如 此 。 


>>> a, *b, c = "abc" 
>>> a, b, c 


(‘a', ['b'], 'c') 
这 种 收集 方式 也 可 用 于 函数 参数 列表 中 ( 参见 第 6 章 )。 
5.2.2” 链 式 赋值 
链 式 赋值 是 一 种 快捷 方式 , 用 于 将 多 个 变量 关联 到 同一 个 值 。 这 有 点 像 前 一 节 介 绍 的 并 行 赋 
但 只 涉及 一 个 值 : 
x= y= somefunction() 
上 述 代 码 与 下 面 的 代码 等 价 : 


= somefunction() 
六 


请 注意 ， 这 两 条 语句 可 能 与 下 面 的 语句 不 等 价 : 


x = somefunction() 
y = somefunction() 


有 关 这 方面 的 详细 信息 ， 请 参阅 5.4.6 节 介绍 相同 运算 符 (is ) 的 部 分 。 
5.2.3 ”增强 赋值 
可 以 不 编写 代码 x = x + 1， 而 将 右边 表达 式 中 的 运算 符 ( 这 里 是 + ) 移 到 赋值 运算 符 ( =) 


















































值 
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的 前 面 ， 从 而 写成 x += 1。 这 称 为 增强 赋值 ， 适 用 于 所 有 标准 运算 符 ， 如 * 、/、% 等 。 


>>> X = 2 
>>> Xx += 1 
> sl 2 
>>> x 

6 


增强 赋值 也 可 用 于 其 他 数据 类 型 ( 只 要 使 用 的 双 目 运算 符 可 用 于 这 些 数 据 类 型 )。 


>>> fnord = 'foo' 
>>> fnord += “ba 
>>> fnord *= 2 
>>> fnord 
"foobarfoobai 


通过 使 用 增强 赋值 ， 可 让 代码 更 紧凑 、 更 简洁 ， 同 时 在 很 多 情况 下 的 可 读 性 更 强 。 


5.3 代码 块 : 缩 进 的 乐趣 


代码 块 其 实 并 不 是 一 种 语句 ， 但 要 理解 接 下 来 两 节 的 内 容 ， 你 必须 熟悉 代码 块 。 
代码 块 是 一 组 语句 ， 可 在 满足 条 件 时 执行 (if 语句 )， 可 执行 多 次 (循环 )， 等 等 。 代 码 块 是 
通过 缩 进 代 码 〈 即 在 前 面 加 空格 ) 来 创建 的 。 
































注意 也 可 使 用 制 表 符 来 缩 进 代码 块 。Python 将 制 表 符 解 释 为 移 到 下 一 个 制 表 位 ( 相 邻 制 表 位 
相距 8 个 空格 )， 但 标准 ( 也 是 更 佳 的 ) 做 法 是 只 使 用 空格 ( 而 不 使 用 制 表 符 ) 来 缩 进 ， 
且 每 级 缩 进 4 个 空格 。 











在 同一 个 代码 块 中 ， 各 行 代码 的 缩 进 量 必须 相同 。 下 面 的 伪 代 码 ( 并非 真正 的 Python 代码 ) 
演示 了 如 何 缩 进 : 


this is a line 
this is another line: 
this is another block 
continuing the same block 
the last line of this block 
phew, there we escaped the inner block 


在 很 多 语言 中 ， 都 使 用 一 个 特殊 的 单词 或 字符 ( 如 begin 或 { ) 来 标识 代码 块 的 起 始 位 置 ， 并 
使 用 另 一 个 特殊 的 单词 或 字符 〈 如 end 或 } ) 来 标识 结束 位 置 。 在 Python 中 ， 使 用 冒号 ( : ) 指出 
接 下 来 是 一 个 代码 块 , 并 将 该 代码 块 中 的 每 行 代码 都 缩 进 相同 的 程度 。 发 现 缩 进 量 与 之 前 相同 时 ， 
你 就 知道 当前 代码 块 到 此 结束 了 。( 很 多 用 于 编程 的 编辑 器 和 IDE 知 道 如 何 缩 进 代码 块 , 可 帮助 你 
轻松 地 正确 缩 进 。) 

下 面 来 看 看 代码 块 的 用 途 。 
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5.4 条 件 和 条 件 语句 

到 目前 为 止 , 在 你 编写 的 程序 中 , 语句 都 是 逐条 执行 的 。 现 在 更 进一步 ， 让 程序 选择 是 否 执 
行 特定 的 语句 块 。 
5.4.1 这 正 是 布尔 值 的 用 武之 地 


在 本 书 前 面 ， 你 多 次 遇 到 了 真 值 ， 现 在 终于 需要 用 到 它们 了 。 真 值 也 称 布尔 值 ， 是 以 在 真 值 
方面 做 出 了 巨大 贡献 的 George Boole 命 名 的 。 






































注意 ”如果 你 始终 聚精会神 ， 肯 定 注 意 到 了 第 1 章 的 旁 注 “先睹为快 : if 语 句 ”， 其 中 已 经 描述 
了 if 语 和 句 。 然 而 ， 到 目前 为 止 ， 还 没有 正式 介绍 if 语 和 句 。 你 将 看 到 ， 有 关 if 语 句 ， 还 有 
很 多 我 没有 介绍 的 地 方 。 





用 作 布 尔 表 达 式 ( 如 用 作 if 语 句 中 的 条 件 ) 时 ， 下 面 的 值 都 将 被 解释 器 视 为 假 : 


False None 0 "" () [] QD 


换 而 言 之 ， 标 准 值 False 和 None、 各 种 类 型 ( 包括 浮 点 数 、 复 数 等 ) 的 数值 0、 空 序列 ( 如 空 
字符 串 、 空 元 组 和 空 列 表 ) 以 及 空 映射 (如 空 字典 ) 都 被 视 为 假 ， 而 其 他 各 种 值 都 被 视 为 真 "， 
包括 特殊 值 True”。 

明白 了 吗 ? 这 意味 着 任何 Python 值 都 可 解释 为 真 值 。 乍 一 看 这 有 点 令 人 迷惑 ， 但 也 很 有 用 。 
虽然 可 供 选 择 的 真 值 非常 多 ,但 标准 真 值 为 True 和 False。 在 有 些 语 言 ( 如 C 语 言 和 2.3 之 前 的 Python 
版 本 ) 中 ,标准 真 值 为 0 ( 表示 假 ) 和 1 ( 表示 真 )。 实 际 上 ，True 和 False 不 过 是 0 和 1 的 别名 ， 虽 
然 看 起 来 不 同 ， 但 作用 是 相同 的 。 


>>> True 

True 

>>> False 

False 

>>> True == 1 

True 

>>> False == 0 

True 

>>> True + False + 42 
43 


因此 ， 如 果 你 看 到 一 个 返回 1 或 0 的 表达 式 (可 能 是 使 用 较 旧 的 Python 版 本 编写 的 )， 就 知道 
这 实际 上 意味 着 True 或 False。 
布尔 值 True 和 False 属 于 类 型 pool1， 而 pool 与 1ist、str 和 tuple 一 样 ， 可 用 来 转换 其 他 的 值 。 






























































Qz 至 少 对 内 置 类 型 值 来 说 如 此 。 你 在 第 9 章 将 看 到 ， 对 于 自己 创建 的 对 象 ， 解 释 为 真 还 是 假 由 你 决定 。 
@ 正如 Python 老手 Laura Creighton 指 出 的 ， 这 种 差别 类 似 于 “有 些 东 西 ” 和 “没有 东西 ”的 差别 ， 而 不 是 真 和 假 
的 差别 。 





人 
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>>> bool('I think, therefore I am') 
True 

>>> boo1(42) 

True 

>>> bool('') 

False 

>>> bool(0) 

False 


鉴于 任何 值 都 可 用 作 布 尔 值 ， 因 此 你 几乎 不 需要 显 式 地 进行 转换 (Python 会 自动 转换 )。 





注意 虽然 [] 和 "" 都 为 假 ( 妈 bool([]) == bool("") == False )， 但 它们 并 不 相等 ( 即 [] !="" )。 
对 其 他 各 种 为 假 的 对 象 来 说 ， 情 况 亦 如 此 【( 一 个 更 显 而 罗 见 的 例子 是 () != False )。 


5.4.2 ”有 条 件 地 执行 和 if 语句 
真 值 可 合并 , 至 于 如 何 合并 稍 后 再 讲 , 先 来 看 看 真 值 可 用 来 做 什么 ,请 尝试 运行 下 面 的 脚本 : 


name = input('What is your name? ' 
if name.endswith('Gumby' ): 
print('Hello, Mr. Gumby') 


这 就 是 if 语 句 ， 让 你 能 够 有 条 件 地 执行 代码 。 这 意味 着 如 果 条 件 (if 和 冒号 之 间 的 表达 式 ) 
为 前 面 定义 的 真 ， 就 执行 后 续 代 码 块 (这 里 是 一 条 print 语 句 ); 如 果 条 件 为 假 ， 就 不 执行 ( 你 应 
该 猜 到 了 )。 









































注意 ”在 第 1 章 的 旁 注 “先睹为快 if 语句 ”中 ， 将 有 条 件 执 行 的 语句 与 if 语 句 放 在 同一 行 中 。 
这 与 前 一 个 示例 中 使 用 单行 代码 块 的 做 法 等 价 。 


5.4.3 else 子 句 


在 前 一 节 的 示例 中 ， 如果 你 输入 以 Gumby 结 尾 的 名 字 , 方法 name.endswith 将 返回 True， 导 致 
后 续 代码 块 执行 一 一 打印 问候 语 。 如 果 你 愿意 ， 可 使 用 else 子 句 增 加 一 种 选择 ( 之 所 以 叫 子 句 是 
因为 else 不 是 独立 的 语句 ， 而 是 if 语 句 的 一 部 分 )。 


name = input('What is your name?') 

if name.endswith('Gumby'): 
print('Hello, Mr. Gumby') 

else: 
print('Hello, stranger') 


在 这 里 ， 如 果 没 有 执行 第 一 个 代码 块 〈 因 为 条 件 为 假 )， 将 进入 第 二 个 代码 块 。 这 个 示例 表 
明 ，Python 代 码 很 容易 理解 ， 不 是 吗 ? 如 果 从 if 开 始 将 代码 大 声 朗读 出 来 ， 听 起 来 将 像 普通 句子 
一 样 (也 可 能 不 那么 普通 )。 
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还 有 一 个 与 if 语 句 很 像 的 “亲戚 ”, 它 就 是 条 件 表 达 式 一 一 C 语 言 中 三 目 运算 符 的 Python 版 本 。 
下 面 的 表达 式 使 用 if 和 else 确 定 其 值 : 


status = "friend" if name.endswith("Gumby") else "stranger" 


如 果 条 件 〈 紧 跟 在 if 后 面 ) 为 真 ， 表 达 式 的 结果 为 提供 的 第 一 个 值 ( 这 里 为 "friend" )， 否 
则 为 第 二 个 值 (这 里 为 "stranger" )。 














5.4.4 ”elif 子 名 


要 检查 多 个 条 件 ， 可 使 用 elif。elif 是 else if 的 缩写 ， 由 一 个 if 子 句 和 一 个 else 子 句 组 合 而 
成 ， 也 就 是 包含 条 件 的 else 子 句 。 


num = int(input('Enter a number: ')) 
if num > 0: 

print('The number is positive') 

elif num < 0: 

print('The number is negative') 

else: 
print('The number is zero') 





























5.4.5 代码 块 众 套 
下 面 穿插 点 额外 的 内 容 。 你 可 将 if 语 句 放 在 其 他 if 语 句 块 中 ， 如 下 所 示 : 


name = input('What is your name? ') 
if name.endswith('Gumby' ): 
if name.startswith('Mr.'): 
print('Hello, Mr. Gumby') 
elif name.startswith('Mrs.'): 
print('Hello, Mrs. Gumby') 
else: 
print('Hello, Gumby') 








else: 
print('Hello, stranger') 


在 这 里 ， 如 果 名 字 以 Gumby 结 尾 ， 就 同时 检查 名 字 开 头 , 这 是 在 第 一 个 代码 块 中 使 用 一 条 独 
立 的 if 语 句 完成 的 。 请 注意 ， 这 里 还 使 用 了 elif。 最 后 一 个 分 文 (else 子 句 ) 没有 指定 条 件 一 一 
如 果 没 有 选择 其 他 分 支 ， 就 选择 最 后 一 个 分 支 。 如 果 需 要 ， 这 里 的 两 个 else 子 句 都 可 省 略 。 如 果 
省 略 里 面 的 else 子 句 ， 将 忽略 并 非 以 Mr. 或 Mrs. 打 头 的 名 字 ( 假设 名 字 为 Gumby )。 如 果 省 略 外 面 
的 else 子 外， 将 忽略 陌生 人 。 


5.4.6 更 复杂 的 条 件 


这 就 是 你 需要 知道 的 有 关 if 语 句 的 全 部 知识 。 下 面 来 说 说 条 件 本 身 ， 因 为 它们 是 有 条 件 执行 
中 最 有 趣 的 部 分 。 
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1. 比较 运算 符 
在 条 件 表 达 式 中 ， 最 基本 的 运算 符 可 能 是 比较 运算 符 ， 它 们 用 于 执行 比较 。 表 5-1 对 比较 运 
算 符 做 了 总 结 。 


























表 5-1 ”Python 比较 运算 符 




















达 式 描 述 

ee x 等 于 y 

x<y x 小 于 y 

x>y x 大 于 y 

X >= y x 大 于 或 等 于 y 

x<=y x 小 于 或 等 于 y 

x != x 不 等 于 y 

x isy x 和 y 是 同一 个 对 象 
oy x 和 y 是 不 同 的 对 象 

x in y x 是 容器 ( 如 序列 ) y 的 成 员 
x not in y x 不 是 容器 ( 如 序列 ) y 的 成 员 





对 不 兼容 的 类 型 进行 比较 


从 理论 上 说 ， 可 使 用 < 和 <= 等 运算 符 比 较 任意 两 个 对 象 x 和 y 的 相对 大 小 ， 并 获得 一 个 真 
值 ， 但 这 种 比较 仅 在 x 和 y 的 类 型 相同 或 相近 时 (如 两 个 整数 或 一 个 整数 和 一 个 浮 点 数 ) 才 有 

将 整数 与 字符 串 相 加 毫 无 意义 ， 检 查 一 个 整数 是 否 小 于 一 个 字符 串 也 是 一 样 。 奇 怪 的 
是 ， 在 Python 3 之 前 ， 竟 然 可 以 这 样 做 。 不 过 即便 你 使 用 的 是 较 旧 的 Python 版 本 ， 也 应 对 这 类 
比较 阁 而 远 之 ， 因 为 结果 是 不 确定 的 ， 每 次 执行 程序 时 都 可 能 不 同 。 在 Python 3 中 ， 已 经 不 允 
许 这 样 比较 不 兼容 的 类 型 了 。 








与 赋值 一 样 ，Python 也 支持 链 式 比较 : 可 同时 使 用 多 个 比较 运算 符 ， 如 0 < age < 100。 
有 些 比 较 运 算 符 需要 特别 注意 ， 下 面 就 来 详细 介绍 。 


@ 相等 运算 符 
要 确定 两 个 对 象 是 否 相 等 ， 可 使 用 比较 运算 符 ， 用 两 个 等 号 ( == ) 表示 。 























>>> "foo" == "foo" 
True 
>>> "foo" == "bar" 
False 











两 个 等 号 ? 为 何不 像 数学 中 那样 使 用 一 个 等 号 呢 ? 相信 你 很 聪明 , 自己 就 能 够 明白 其 中 的 原 
因 ， 但 这 里 还 是 试 试 一 个 等 号 吧 。 

>>> "foo" = "foo" 

SyntaxError: can't assign to literal 
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个 等 号 是 赋值 运算 符 ， 用 于 修改 值 ， 而 进行 比较 时 你 可 不 想 这 样 做 。 
e@ is: 相同 运算 符 
这 个 运算 符 很 有 趣 ， 其 作用 看 似 与 == 一 样 ， 但 实际 上 并 非 如 此 。 


>>> x = y= [1, 2, 3] 
>>> z = [1, 2, 3] 


>>> x == y 
True 
>>> Xx == Z 
True 
>>> x is y 
True 
>>> x is Z 
False 


在 前 几 个 示例 中 ， 看 不 出 什么 问题 ， 但 最 后 一 个 示例 的 结果 很 奇怪 : x 和 z 相 等 ， 但 x is z 的 
结果 却 为 False。 为 何 会 这 样 呢 ? 因为 is 检查 两 个 对 象 是 否 相 同 〈 而 不 是 相等 )。 变 量 x 和 y 指 向 同 
一 个 列表 ， 而 z 指 向 另 一 个 列表 (其 中 包含 的 值 以 及 这 些 值 的 排列 顺序 都 与 前 一 个 列表 相同 )。 这 
两 个 列表 虽然 相等 ， 但 并 非 同一 个 对 象 。 

这 好 像 不 可 理喻 ? 请 看 下 面 的 示例 : 


>>> x = [1, 2, 3] 
>>>y = [2, 4] 
>>> x is not y 
True 

>>> del x[2] 

>>> y[1] = 1 

>>> y.reverse() 


在 这 个 示例 中 ,我 首先 创建 了 两 个 不 同 的 列表 x 和 y。 如 你 所 见 ，x is not y (与 x is y 相 反 ) 
的 结果 为 True， 这 一 点 你 早已 知道 。 接 下 来 ， 我 稍微 修改 了 这 两 个 列表 ， 现 在 它们 虽然 相等 ,但 
依然 是 两 个 不 同 的 列表 。 


>>> x == y 
True 
>>> x isy 
False 


显然 ， 这 两 个 列表 相等 但 不 相同 。 
总 之 ，== 用 来 检查 两 个 对 象 是 否 相 等 ， 而 is 用 来 检查 两 个 对 象 是 否 相 同 ( 是 同一 个 对 象 )。 









































黄 


告 不 要 将 is 用 于 数 和 字符 串 等 不 可 变 的 基本 值 。 鉴 于 Python 在 内 部 处 理 这 些 对 象 的 方式 ， 
这 样 做 的 结果 是 不 可 预测 的 。 


e in: 成 员 资格 运算 符 
运算 符 in 在 2.2.5 节 介绍 过 ， 与 其 他 比较 运算 符 一 样 ， 它 也 可 用 于 条 件 表达 式 中 。 


name = input('What is your name?') 
if 's' in name: 
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print('Your name contains the letter "s".') 
else: 
print('Your name does not contain the letter "s".') 


@ 字符 串 和 序列 的 比较 
字符 串 是 根据 字符 的 字母 排列 顺序 进行 比较 的 。 


>>> "alpha" < "beta" 
True 


虽然 基于 的 是 字母 排列 顺序 ， 但 字母 都 是 Unicode 字 符 ， 它 们 是 按 码 点 排列 的 。 

>>> “全 音信 ”< “全 全 音 ` 

True 

实际 上 ， 字 符 是 根据 顺序 值 排列 的 。 要 获悉 字母 的 顺序 值 ， 可 使 用 函数 ord。 这 个 函数 的 作 
用 与 函数 chr 相 反 : 


>>> ord(" 仿 ") 
128585 

>>> ord(" 息 ") 
128586 

>>> chr(128584) 
'a' 


这 种 方法 既 合 理 又 一 致 ， 但 可 能 与 你 排序 的 方式 相反 。 例如 ,涉及 大 写字 母 时 ,排列 顺序 就 
能 与 你 想 要 的 不 同 。 


>>> "a" < "B" 
False 


一 个 诀窍 是 忽略 大 小 写 。 为 此 可 使 用 字符 串 方法 lower， 如 下 所 示 ( 参见 第 3 章 ): 


>>> "a".lower() < "B".lower() 

True 

>>> 'FnOrD' .lower() ==“Fnord .lower() 
True 


其 他 序列 的 比较 方式 与 此 相同 ， 但 这 些 序列 包含 的 元 素 可 能 不 是 字符 ， 而 是 其 他 类 型 的 值 。 


>>> [1, 2] < [2, 1] 
True 


如 果 序 列 的 元 素 为 其 他 序列 ， 将 根据 同样 的 规则 对 这 些 元 素 进 行 比较 。 


>>> [2, [1, 4]] < [2, [1, 5]] 
True 



































2. 布尔 运算 符 

至 此 ,你 已 见 过 很 多 返回 真 值 的 表达 式 ( 实际 上 ， 考虑 到 所 有 值 都 可 解释 为 真 值 ， 因 此 所 有 
的 表达 式 都 返回 真 值 )， 但 你 可 能 需要 检查 多 个 条 件 。 例 如 ， 假 设 你 要 编写 一 个 程序 ， 让 它 读 取 
一 个 数 ， 并 检查 这 个 数 是 否 位 于 1 ~ 10 ( 含 )。 为 此 ， 可 像 下 面 这 样 做 : 


number = int(input('Enter a number between 1 and 10: ')) 
if number <= 10: 
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if number >= 1: 
print('Great!') 
else: 
print('Wrong!') 
else: 
print('Wrong!') 
这 可 行 , 但 有 点 笨拙 ， 因 为 你 输入 了 print('Wrong!') 两 次 。 重复 劳动 可 不 是 好 事 ， 那么 该 如 
何 办 呢 ? 很 简单 。 
number = int(input('Enter a number between 1 and 10: ')) 
if number <= 10 and number >= 1: 
print('Great!') 
else: 
print('Wrong!') 

















注意 通过 使 用 链 式 比较 1 <= number “= 10 可 进一步 简化 这 个 示例 。 也 许 原本 就 应 该 这 样 做 。 























运算 符 and 是 一 个 布尔 运算 符 。 它 接受 两 个 真 值 ， 并 在 这 两 个 值 都 为 真 时 返回 真 ， 否 则 返回 
假 。 还 有 另外 两 个 布尔 运算 符 : or 和 not。 通 过 使 用 这 三 个 运算 符 ， 能 以 任何 方式 组 合 真 值 。 


if ((cash > price) or customer has good credit) and not out of stock: 
give goods() 








短路 逻辑 和 条 件 表 达 式 


布尔 运算 符 有 个 有 趣 的 特征 :只 做 必要 的 计算 。 例如， 仅 当 x 和 y 都 为 真 时 ， 表 达 式 x and 
y 才 为 真 。 因 此 如 果 x 为 假 ， 这 个 表达 式 将 立即 返回 假 ， 而 不 关心 y。 实 际 上 ， 如 果 x 为 假 ， 这 
个 表达 式 将 返回 x， 否 则 返回 y。( 这 将 提供 预期 的 结果 ， 你 明白 了 其 中 的 原理 吗 ? ) 这 种 行为 
称 为 短路 逻辑 ( 或 者 延迟 求 值 ) : 布尔 运算 符 常 被 称 为 逻辑 运算 符 ， 如 你 所 见 ， 在 有 些 情况 下 
将 “ 绕 过 ”第 二 个 值 。 对 于 运算 符 or， 情况 亦 如 此 。 在 表达 式 x or y 中 ， 如 果 x 为 真 ， 就 返回 
xXx， 否则 返回 y。( 你 明白 这 样 做 合理 的 原因 吗 ? ) 请 注意 ， 这 意味 着 位 于 布尔 运算 符 后 面 的 代 
码 〈 如 函数 调用 ) 可 能 根本 不 会 执行 。 像 下 面 这 样 的 代码 就 利用 了 这 种 行为 : 

name = input('Please enter your name: ') or '<unknown>"' 

如 果 没 有 输入 名 字 ， 上 述 or 表 达 式 的 结果 将 为 "<unknown>' 。 在 很 多 情况 下 ， 你 都 宁愿 使 
用 条 件 表达 式 ， 而 不 要 这 样 的 短路 花样 。 不 过 前 面 这 样 的 语句 确实 有 其 用 武之 地 。 





5.4.7 断言 
if 语句 有 一 个 很 有 用 的 “亲戚 ”>， 其 工作 原理 类 似 于 下 面 的 伪 代 码 : 


if not condition: 
crash program 


问题 是 , 为 何 要 编写 类 似 于 这 样 的 代码 呢 ? 因为 让 程序 在 错误 条 件 出 现时 立即 骨 溃 胜 过 以 后 
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再 表 溃 。 基 本 上 ,你 可 要 求 某 些 条 件 得 到 满足 ( 如 核实 函数 参数 满足 要 求 或 为 初始 测试 和 调试 提 
供 帮 助 )， 为 此 可 在 语句 中 使 用 关键 字 assert。 


>>> age = 10 

>>> assert 0 < age < 100 

>>> age = -1 

>>> assert 0 < age < 100 

Traceback (most recent call last): 
File "<stdin>", line 1, in ? 

AssertionError 





如 果 知 道 必须 满足 特定 条 件 , 程序 才能 正确 地 运行 , 可 在 程序 中 添加 assert 语 句 充 当 检 查 点 ， 
这 很 有 帮助 。 


还 可 在 条 件 后 面 添加 一 个 字符 串 ， 对 断言 做 出 说 明 。 


>>> age = -1 
>>> assert 0 < age < 100, 'The age must be Tealistic' 
Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
AssertionError: The age must be realistic 


5.5 ”循环 


至 此 ,你 知道 了 如 何在 条 件 为 真 (或 假 ) 时 执行 操作 , 但 如 何 重 复 操作 多 次 呢 ? 例 如 ， 你 可 
能 想 创建 一 个 程序 ,每 月 都 提醒 支付 房租 。 如 果 只 使 用 已 介绍 过 的 工具 ,必须 像 下 面 这 样 编写 这 
个 程序 〈( 伪 代码 ): 


send mail 

wait one month send mail 
wait one month send mail 
wait one month 

(... and so on) 


但 是 如 果 和 希望 程序 这 样 不 断 执行 下 去 ， 直到 人 为 停止 ,该 如 何 办 呢 ? 基本 上 ,你 需要 编写 类 
似 于 下 面 的 代码 ( 也 是 伪 代 码 ): 


while we aren't stopped: 
send mail 
wait one month 


再 来 看 一 个 更 简单 的 例子 ,假设 要 打印 1 ~ 100 的 所 有 数 。 同 样 ， 你 可 采用 策 办 法 。 


print(1) 
print(2) 
print(3) 































































































print(99) 
print(100) 


但 如 果 你 愿意 使 用 条 办 法 ， 就 不 会 求助 于 Python 了， 不 是 吗 ? 
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5.5.1 ”while 循环 
为 避免 前 述 示 例 所 示 的 繁琐 代码 ， 能 够 像 下 面 这 样 做 很 有 帮助 : 


x=1 

while x “= 100: 
print(x) 
X += 1 





那么 如 何 使 用 Python 来 实现 的 ? 你 猜 对 了 ， 就 像 上 面 那样 做 。 不 太 复 杂 ， 不 是 吗 ? 你 还 可 以 
使 用 循环 来 确保 用 户 输入 名 字 ， 如 下 所 示 : 


name = "" 
while not name: 

name = input('Please enter your name: ') 
print('Hello, {}!'.format(name)) 


请 尝试 运行 这 些 代 码 ， 并 在 要 求 你 输入 名 字 时 直接 按 回 车 键 。 你 会 看 到 提示 信息 再 次 出 现 ， 
为 name 还 是 为 空 字符 串 ， 这 相当 于 假 。 





提示 如 果 你 只 是 输入 一 个 空格 字符 (将 其 作为 你 的 名 字 ) ， 结 果 将 如 何 呢 ? 试 试 看 。 程 序 将 
接受 这 个 名 字 ， 因 为 包含 一 个 空格 字符 的 字符 串 不 是 空 的 ， 因 此 不 会 将 name 视 为 假 。 这 
无 疑 是 这 个 小 程序 的 一 个 瑕 疯 ， 但 很 容易 修复 : 只 需 将 while not name 改 为 Nhile not name 
or name.isspace() 或 while not name.strip() 即 可 。 


5.5.2 ”for 循环 


while 语 句 非 常 灵活 ， 可 用 于 在 条 件 为 真 时 反复 执行 代码 块 。 这 在 通常 情况 下 很 好 ,但 有 时 
候 你 可 能 想 根据 需要 进行 定制 。 一 种 这 样 的 需求 是 为 序列 〈 或 其 他 可 迭代 对 象 ) 中 每 个 元 素 执行 
代码 块 。 

















注意 ”基本 上 ， 可 和 迭代 对 象 是 可 使 用 for 循 环 进行 遍历 的 对 象 。 第 9 章 将 详细 介绍 可 和 迭代 对 象 和 
迭代 器 。 就 目前 而 言 ， 只 需 将 可 迭代 对 益 视 为 序列 即 可 。 


为 此 ， 可 使 用 for 语 句 : 
words = ['this', 'is', 'an', 'ex', 'parrot'] 
for word in words: 

print (word) 


numbers = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
for number in numbers: 
print (number) 


鉴于 迭代 (也 就 是 遍历 ) 特定 范围 内 的 数 是 一 种 常见 的 任务 ，Python 提 供 了 一 个 创建 范围 的 




















内 置 函 数 。 


>>> range(0, 10) 

range(0, 10) 

>>> list(range(0, 10)) 

[0， 1，2，3，4，5， 6， 7， 28， 9] 


范围 类 似 于 切片 。 它 们 包含 起 始 位 置 (这 里 为 0 )， 但 不 包含 结束 位 置 (这 里 为 10 )。 在 很 多 
情况 下 ， 你 都 希望 范围 的 起 始 位 置 为 0。 实 际 上 ， 如 果 只 提供 了 一 个 位 置 ， 将 把 这 个 位 置 视 为 结 
束 位 置 ， 并 假定 起 始 位 置 为 0。 

>>> Tange(10) 

range(0, 10) 


下 面 的 程序 打印 数 1 ~ 100: 


for number in range(1,101): 
print (number) 

















注意 ， 相 比 前 面 使 用 的 while 循 环 ， 这 些 代码 要 紧凑 得 多 。 


提示 “只 要 能 够 使 用 for 循 环 ， 就 不 要 使 用 while 循 环 。 


5.5.3 ”和 迭代 字典 
要 遍历 字典 的 所 有 关键 字 ， 可 像 遍 历 序 列 那样 使 用 普通 的 for 语 句 。 


be A 
for key in d: 
print(key, 'corresponds to', d[key]) 


也 可 使 用 keys 等 字典 方法 来 获取 所 有 的 键 。 如 果 只 对 值 感 兴趣 ， 可 使 用 d.values。 你 可 能 还 
记得 ，d.items 以 元 组 的 方式 返回 键 - 值 对 。for 循 环 的 优点 之 一 是 ， 可 在 其 中 使 用 序列 解 包 。 


for key, value in d.items(): 
print(key, 'corresponds to', value) 








注意 ”字典 元 素 的 排列 顺序 是 不 确定 的 。 换 而 言 之 ， 迁 代 字 典 的 键 或 值 时 ， 一定 会 处 理 所 有 的 
键 或 值 ， 但 不 知道 处 理 的 顺序 。 如 果 顺 序 很 重要 ， 可 将 键 或 值 存储 在 一 个 列表 中 并 对 列 
表 排 序 ， 再 进行 和 迭代。 要 让 了 映射 记 住 其 项 的 插入 顺序 ， 可 使 用 模块 Collections 中 的 


OrderedDict 类 。 


5.5.4 ”一些 迭 代 工 具 


Python 提 供 了 多 个 可 帮助 迭代 序列 (或 其 他 可 迭代 对 象 ) 的 函数 ， 其 中 一 些 位 于 第 10 章 将 介 
绍 的 模块 itertools 中 ,但 还 有 一 些 内 置 函 数 使 用 起 来 也 很 方便 。 
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1. 并 行 迭 代 
有 时 候 ， 你 可 能 想 同 时 和 迭代 两 个 序列 。 假 设 有 下 面 两 个 列表 : 


names = ['anne', 'beth', 'george', "damon ] 
ages = [12, 45, 32,102] 


如 果 要 打印 名 字 和 对 应 的 年 龄 ， 可 以 像 下 面 这 样 做 : 
for i in range(len(names)): 
print(names[i], 'is', ages[i], 'years ol1d') 
i 是 用 作 循 环 索引 的 变量 的 标准 名 称 。 一 个 很 有 用 的 并 行 迭 代 工 具 是 内 置 函数 zip， 它 将 两 个 
列 “ 颖 合 ” 起 来 ,并 返回 一 个 由 元 组 组 成 的 序列 。 返 回 值 是 一 个 适合 迭代 的 对 象 ， 要 查看 其 内 
可 使 用 1ist 将 其 转换 为 列表 。 


>>> list(zip(names, ages)) 
[('anne'’, 12), ('beth', 45), ('george', 32), ('damon', 102)] 


“缝合 ”后 ， 可 在 循环 中 将 元 组 解 包 。 


for name, age in zip(names, ages): 
print(name, 'is', age, 'years 01d ') 


函数 zip 可 用 于 “缝合 ”任意 数量 的 序列 。 需 要 指出 的 是 ， 当 序列 的 长 度 不 同时 ， 函 数 zip 将 
在 最 短 的 序列 用 完 后 停止 “缝合 ”。 


>>> list(zip(range(5), range(100000000))) 
[(0, 0), (1, 1), (2, 2), (3, 3), (4, 4)] 


2. 迭代 时 获取 索引 
在 有 些 情况 下 , 你 需要 在 迭代 对 象 序列 的 同时 获取 当前 对 象 的 索引 。 例如 ,你 可 能 想 殖 换 一 
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个 字符 串 列表 中 所 有 包含 子囊 'xxx' 的 字符 串 。 当 然 ， 完 成 这 种 任务 的 方法 有 很 多 ,但 这 里 假设 
你 要 像 下 面 这 样 做 : 


for string in strings: 
if 'xxx' in string: 
index = strings.index(string) # 在 字符 串 列 表 中 查找 字符 串 
strings[index] =“[censored]' 


这 可 行 , 但 蔡 换 前 的 搜索 好 像 没 有 必要 。 另 外 , 如 果 没 有 替换 , 搜索 返回 的 索引 可 能 不 对 ( 即 
返回 的 是 该 字符 串 首次 出 现 处 的 索引 )。 下面 是 一 种 更 佳 的 解决 方案 : 


index = 0 
for string in strings: 
if 'xxx' in string: 
strings[index] = '[censored]' 
index += 1 


这 个 解决 方案 虽然 可 以 接受 ， 但 看 起 来 也 有 点 笨拙 。 另 一 种 解决 方案 是 使 用 内 置 函 数 


enumerate。 























for index, string in enumerate(strings): 
if 'xxx' in string: 
strings[index] = '[censored]' 
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这 个 函数 让 你 能 够 迭代 索引 - 值 对 ， 其 中 的 索引 是 自动 提供 的 。 

3. 反 向 迭代 和 排序 后 再 帮 代 

来 看 另外 两 个 很 有 用 的 函数 : reversed 和 sorted。 它们 类 似 于 列表 方法 reverse 和 sort( sorted 
接受 的 参数 也 与 sort 类 似 ), 但 可 用 于 任何 序列 或 可 迭代 的 对 象 ， 且 不 就 地 修改 对 象 ， 而 是 返回 
反 转 和 排序 后 的 版 本 。 


>>> sorted([4, 3, 6, 8, 3]) 

[3， 3， 4， 6， 8] 

>>> sorted('Hello, world!') 

篇 3 3 Hs 'd', ES a “Is A "0; '0', Te 'w'] 

>>> list(reversed('Hello, world!')) 
1 


























[ls “d's 人 全 “O's 'W'，, 1 和 
>>> ''.join(reversed('Hello, world 
"ldlrow ,olleH' 


请 注意 ，sorted 返 回 一 个 列表 ， 而 reversed 像 zip 那 样 返回 一 个 更 神秘 的 可 迭代 对 象 。 你 无 需 
关心 这 到 底 意味 着 什么 ， 只 管 在 for 循 环 或 join 等 方法 中 使 用 它 ， 不 会 有 任何 问题 。 只 是 你 不 能 
对 它 执行 索引 或 切片 操作 ， 也 不 能 直接 对 它 调 用 列表 的 方法 。 要 执行 这 些 操作 ， 可 先 使 用 list 对 
返回 的 对 象 进行 转换 。 


上 We "Es ss "er, 'H"] 
)) 


























提示 ”要 按 字 母 表 排 序 , 可 先 转换 为 小 写 。 为 此 , 可 将 sort 或 sorted 的 key 参 数 设置 为 str.1ower。 
例如 ，sorted("aBc"，kKkey=str.lower) 返 回 ['a'"，'B'，'c']。 


5.5.5 ”跳出 循环 


通常 ,循环 会 不 断 地 执行 代码 块 ， 直 到 条 件 为 假 或 使 用 完 序 列 中 的 所 有 元 素 。 但 在 有 些 情 况 
下 ,你 可 能 想 中 断 循环 、 开 始 新 迭代 (进入 “下 一 轮 ” 代 码 块 执行 流程 ) 或 直接 结束 循环 。 

1. break 

要 结束 ( 跳出 ) 循环 ， 可 使 用 break。 假设 你 要 找 出 小 于 100 的 最 大 平方 值 (整数 与 自己 相 乘 
的 结果 )， 可 从 100 开 始 向 下 和 迭代。 找到 一 个 平方 值 后 ， 无 需 再 迭代 ， 因 此 直接 跳出 循环 。 


from math import sqrt 
for n in range(99, 0, -1): 
root = sqrt(n) 
if root == int(root): 
print(n) 
break 


如 果 你 运行 这 个 程序 ， 它 将 打印 81 并 结束 。 注 意 到 我 向 range 传 递 了 第 三 个 参数 一 一 步 长 ， 
即 序列 中 相 邻 数 的 差 。 通 过 将 步 长 设置 为 负数 ， 可 让 zange 向 下 欠 代 ， 如 上 面 的 示例 所 示 ; 还 可 
让 它 跳 过 一 些 数 : 


>>> range(0, 10, 2) 
[0， 2， 4， 6， 8] 
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2. continue 

语句 continue 没 有 break 用 得 多 。 它 结束 当前 迭代 ， 并 跳 到 下 一 次 迭代 开头 。 这 基本 上 意味 
着 跳 过 循环 体 中 余下 的 语句 ,但 不 结束 循环 。 这 在 循环 体 庞大 而 复杂 ， 量 存在 多 个 要 跳 过 它 的 原 
因 时 很 有 用。 在 这 种 情况 下 ， 可 使 用 continue， 如 下 所 示 : 


for x in seq: 
if condition1: continue 
if condition2: continue 
if condition3: continue 














do_something() 
do_something else() 
do_another thing() 
etc() 


然而 ， 在 很 多 情况 下 ， 使 用 一 条 if 语句 就 足够 了 。 


for x in seq: 
if not (condition1 or condition2 or condition3): 
do_something() 
do_something else() 
do_another thing() 
etc() 


continue 虽 然 是 一 个 很 有 用 的 工具 , 但 并 非 不 可 或 缺 的 。 然 而 ， 你 必须 熟悉 break 语 句 ， 因 为 
在 while True 循环 中 经 常用 到 它 ， 这 将 在 下 一 小 节 讨 论 。 

3. while True/break 成 例 

在 Python 中 ，for 和 while 循 环 非常 灵活 ， 但 偶尔 遇 到 的 一 些 问 题 可 能 让 你 禁不住 想 : 如 果 这 
些 循环 的 功能 更 强 些 就 好 了 。 例 如 ,假设 你 要 在 用 户 根据 提示 输入 单词 时 执行 某 种 操作 ,并 在 用 
户 没有 提供 单词 时 结束 循环 。 为 此 ， 一 种 办 法 如 下 : 


word = “dummy 

while word: 
word = input('Please enter a word: ') 
# 使 用 这 个 单词 做 些 事情 : 
print('The word was', word) 


这 些 代码 的 运行 情况 如 下 : 


Please enter a word: first 
The word was first 
Please enter a word: second 
The word was second 
Please enter a word: 


这 与 你 希望 的 一 致 , 但 你 可 能 想 使 用 单词 做 些 比 打印 它 更 有 用 的 事情 。 然 而 ， 如 你 所 见 ， 这 
些 代 码 有 点 难看 。 为 进入 循环 ， 你 需要 将 一 个 哑 值 (未 用 的 值 ) 赋 给 word。 像 这 样 的 哑 值 通常 昭 
示 着 你 的 做 法 不 太 对 。 下 面 来 尝试 消除 这 个 哑 值 。 


word = input('Please enter a word: ') 
while word: 
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# 使 用 这 个 单词 做 些 事情 : 
print('The word was ', word) 
word = input('Please enter a word: ') 


哑 值 消除 了 ,但 包含 重复 的 代码 ( 这样 也 不 好 ): 需要 在 两 个 地 方 使 用 相同 的 赋值 语句 并 调 
用 input。 如 何 避 免 这 样 的 重复 呢 ? 可 使 用 成 例 while True/break。 
while True: 
word = input('Please enter a word: ') 
if not word: break 
# 使 用 这 个 单词 做 些 事情 : 
print('The word was ', word) 
while True 导致 循环 永 不 结束 ， 但 你 将 条 件 放 在 了 循环 体内 的 一 条 if 语句 中 ， 而 这 条 if 语句 
将 在 条 件 满 足 时 调用 break。 这 说 明 并 非 只 能 像 常规 whnile 循 环 那样 在 循环 开头 结束 循环 ， 而 是 可 
在 循环 体 的 任何 地 方 结束 循环 。if/break 行 将 整个 循环 分 成 两 部 分 : 第 一 部 分 负责 设置 ( 如 果 使 
用 和 常规 while 循 环 ， 将 重复 这 部 分 )， 第 二 部 分 在 循环 条 件 为 真 时 使 用 第 一 部 分 初始 化 的 数据 。 
虽然 应 避免 在 代码 中 过 多 使 用 break ( 因为 这 可 能 导致 循环 难以 理解 ， 在 一 个 循环 中 包含 多 
个 break 时 尤其 如 此 )， 但 这 里 介绍 的 技巧 很 常见 ， 因 此 大 多 数 Python 程 序 员 (包括 你 自己 ) 都 能 
够 明白 你 的 意图 。 


5.5.6 ”循环 中 的 else 子 名 


通常 ， 在 循环 中 使 用 preak 是 因为 你 “发 现 ” 了 什么 或 “出 现 ” 了 什么 情况 。 要 在 循环 提前 
结束 时 采取 某 种 措施 很 容易 ， 但 有 时 候 你 可 能 想 在 循环 正常 结束 时 才 采 取 某 种 措施 。 如 何 判断 循 
环 是 提前 结束 还 是 正常 结束 的 呢 ? 可 在 循环 开始 前 定义 一 个 布尔 变量 并 将 其 设置 为 False, 再 在 跳 
出 循环 时 将 其 设置 为 True。 这 样 就 可 在 循环 后 面 使 用 一 条 if 语句 来 判断 循环 是 否 是 提前 结束 的 。 


broke out = False 
for x in seq: 
do_something(x) 
if condition(x): 
broke out = True 
break 
do_something else(x) 
if not broke out: 
print("I didn't break out!") 


一 种 更 简单 的 办 法 是 在 循环 中 添加 一 条 else 子 句 ， 它 仅 在 没有 调用 break 时 才 执 行 。 继 续 前 
面 讨论 break 时 的 示例 。 


from math import sqrt 
for n in range(99, 81, -1): 
root = sqrt(n) 
if root == int(root): 
print(n) 
break 














































































































else: 
print("Didn't find it!") 
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请 注意 ， 为 测试 else 子 句 ， 我 将 下 限 改 成 了 81 (不 包含 )。 如 果 你 运行 这 个 程序 ， 它 将 打印 
"Didn't find it!1"， 因 为 正如 你 在 前 面 讨 论 break 时 看 到 的 ， 小 于 100 的 最 大 平方 值 为 81。 无 论 是 
在 for 循 环 还 是 while 循 环 中 ， 都 可 使 用 continue 、break 和 else 子 句 。 


5.6 简单 推导 
列表 推导 是 一 种 从 其 他 列表 创建 列表 的 方式 , 类 似 于 数学 中 的 集合 推导 。 列表 推导 的 工作 原 
理 非常 简单 ， 有 点 类 似 于 for 循 环 。 


>>> [x * x for x in range(10)] 
[0， 1，4，9， 16， :93 36， 49， 64， 81] 


这 个 列表 由 range(10) 内 每 个 值 的 平方 组 成 ,非常 简单 吧 ? 如 果 只 想 打印 那些 能 被 3 整除 的 平 
方 值 ， 该 如 何 办 呢 ? 可 使 用 求 模 运 算 符 : 如 果 y 能 被 3 整除 ，y % 3 将 返回 0〈 请 注意 ， 仅 当 x 能 被 3 
整除 时 ，x*x 才 能 被 3 整除 )。 为 实现 这 种 功能 ， 可 在 列表 推导 中 添加 一 条 if 语句 。 


>>> [x*x for x in range(10) if x % 3 == 0] 
[O95 36, 84] 


还 可 添加 更 多 的 for 部 分 。 


>>> [(x, y) for x in range(3) for y in range(3)] 
[(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)] 


作为 对 比 ， 下 面 的 两 个 for 循 环 创建 同样 的 列表 : 


result = [] 
for x in range(3): 
for y in range(3) 
result.append((x, y)) 


与 以 前 一 样 ， 使 用 多 个 for 部 分 时 ， 也 可 添加 if 子 句 。 


>>> girls = ['alice', 'bernice', 'clarice'] 

>>> boys = ['chris', 'arnold', 'bob'] 

>>> [b+'+'+g for b in boys for g in girls if b[0] == g[0]] 
['christclarice', "arnold+alice'， "bob+bernice '] 


这 些 代码 将 名 字 的 首 字 母 相 同 的 男孩 和 女孩 配对 。 


更 佳 的 解决 方案 


前 述 男 孩 /女孩 配对 示例 的 效率 不 太 高 ， 因 为 它 要 检查 每 种 可 能 的 配对 。 使 用 Python 解 决 
这 个 问题 的 方法 有 很 多 ， 下 面 是 Alex Martelli 推 荐 的 解决 方案 : 


girls = ['alice', 'bernice', 'clarice'] 
boys = ['chris', 'arnold', 'bob'] 
letterGirls = {} 
for girl in girls: 
letterGirls.setdefault(girl[0], []).append(gir]l) 
print([b+'+'+g for b in boys for g in letterGirls[b[0]]]) 

































































84 第 5 章 当 索 引 行 不 通 时 





这 个 程序 创建 一 个 名 为 letterGirls 的 字典 ， 其 中 每 项 的 键 都 是 一 个 字母 ， 而 值 为 以 这 个 
字母 打头 的 女孩 名 字 组 成 的 列表 ( 字典 方法 setdefault 在 前 一 章 介绍 过 ) 。 创 建 这 个 字典 后 ， 
列表 推导 遍历 所 有 的 男孩 ， 并 查找 名 字 首 字母 与 当前 男孩 相同 的 所 有 女孩 。 这 样 ， 这 个 列表 
推导 就 无 需 尝 试 所 有 的 男孩 和 女孩 组 合并 检查 他 们 的 名 字 首 字母 是 否 相同 了 。 

















使 用 圆 括号 代 蔡 方 括号 并 不 能 实现 元 组 推导 ， 而 是 将 创建 生成 器 ， 详 细 信 息 请 参阅 第 9 章 的 
旁 注 “ 简 单 生成 器 "。 然 而 ， 可 使 用 花 括 号 来 执行 字典 推导 。 

>>> squares = {i:"{} squared is {}".format(i, i**2) for i in range(10)} 

>>> squares[8] 

'8 squared is 64" 


在 列表 推导 中 ，for 前 面具 有 一 个 表达 式 ， 而 在 字典 推导 中 ，for 前 面 有 两 个 用 冒号 分 隔 的 表 
达 式 。 这 两 个 表达 式 分 别 为 键 及 其 对 应 的 值 。 


5.7 三 人 行 
结束 本 章 前 ， 大 致 介绍 一 下 另外 三 条 语句 : pass、del 和 和 exec。 


5.7.1 什么 都 不 做 
有 时候 什 么 都 不 用 做 。 这 种 情况 不 多 ,但 一 旦 遇 到 ， 知 道 可 使 用 pass 请 句 大 有 神 益 。 















































>>> pass 
>>> 
这 里 什么 都 没有 发 生 。 


那么 为 何 需要 一 条 什么 都 不 做 的 语句 呢 ? 在 你 编写 代码 时 ,可 将 其 用 作 占 位 符 。 例 如 ,你 可 
能 编写 了 一 条 if 语句 并 想 尝 试 运行 它 ， 但 其 中 缺少 一 个 代码 块 ， 如 下 所 示 : 


if name == 'Ralph Auldus Melish : 
print('Welcome!') 








elif name == "Enid': 
# 还 未 完成 ……: 
elif name == "Bill Gates': 


print('Access Denied ') 
这 些 代码 不 能 运行 ， 因 为 在 Python 中 代码 块 不 能 为 空 。 要 修复 这 个 问题 ， 只 需 在 中 间 的 代码 
块 中 添加 一 条 pass 语 句 即 可 。 


if name == 'Ralph Auldus Melish : 
print('Welcome!') 





pass 
elif name == 'Bill Gates': 
print('Access Denied ') 
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注意 也 可 不 使 用 注释 和 pass 语 句 ， 而 是 插入 一 个 字符 串 。 这 种 做 法 尤其 适用 于 未 完成 的 函数 
(参见 第 6 章 ) 和 类 ( 参见 第 7 章 )， 因 为 这 种 字符 囊 将 充当 文档 字符 串 ( 将 在 第 6 章 介 绍 )。 


5.7.2 ”使 用 del 删除 
对 于 你 不 再 使 用 的 对 象 , Python 通常 会 将 其 删除 ( 因为 没有 任何 变量 或 数据 结构 成 员 指 向 它 )。 


>>> scoundrel = { age': 42, 'first name': 'Robin', 'last name': 'of Locksley'} 
>>> robin = scoundrel 
>>> scoundrel 

{'age': 42, 'first name': 'Robin', 'last name': "of Locksley'} 
>>> robin 
{'age': 42, 'first name': 'Robin', 'last name': "of Locksley'} 
>>> scoundrel = None 
>>> robin 
{'age': 42, 'first name': 'Robin', 'last name': "of Locksley'} 
>>> robin = None 


最 初 , robin 和 scoundrel 指 向 同一 个 字典 ,因此 将 None 赋 给 scoundrel 后 , 依然 可 以 通过 robin 
来 访问 这 个 字典 。 但 将 robin 也 设置 为 None 之 后 ， 这 个 字典 就 漂浮 在 计算 机 内 存 中 ,没有 任何 名 
称 与 之 相关 联 ， 再 也 无 法 获取 或 使 用 它 了 。 因 此 ,智慧 无 穷 的 Python 解释 器 直接 将 其 删除 。 这 被 
称 为 垃圾 收集 。 请 注意 ， 在 前 面 的 代码 中 ,也 可 将 其 他 任何 值 ( 而 不 是 None ) 赋 给 两 个 变量 ， 这 
样 字典 也 将 消失 。 

另 一 种 办 法 是 使 用 de1 语 句 。( 第 2 章 和 第 4 章 使 用 这 条 语句 来 删除 序列 和 字典 ， 还 记得 吗 ? ) 
这 不 仅 会 删除 到 对 象 的 引用 ， 还 会 删除 名 称 本 身 。 





















































pp > 2 
>>> del x 
>>> x 


Traceback (most recent call last): 
File "<pyshell#255>", line 1, in ? 
x 
NameError: name 'x' is not defined 


这 看 似 简单 ， 但 有 时 不 太 好 理解 。 例 如 ， 在 下 面 的 示例 中 ，x 和 y 指 向 同一 个 列表 : 


>>> x = ["Hello", "world"] 
>>> y = X 

>>> y[1] = "Python" 

3 六 
['Hello', "Python '] 


你 可 能 认为 通过 删除 x， 也 将 删除 y， 但 情况 并 非 如 此 。 


>>> del x 
>>> y 
['Hello', "Python '] 


这 是 为 什么 呢 ? x 和 y 指 向 同一 个 列表 ， 但 删除 x 对 y 没 有 任何 影响 ， 因 为 你 只 删除 名 称 x， 而 
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没有 删除 列表 本 吴 〈 值 )。 事 实 上 ， 在 Python 中 ， 根 本 就 没有 办 法 删除 值 ， 而 且 你 也 不 需要 这 样 
做 ， 因 为 对 于 你 不 再 使 用 的 值 ，Python 解 释 器 会 立即 将 其 删除 。 


5.7.3 ”使 用 exec 和 eval 执行 字符 串 及 计算 其 结果 

有 时 候 , 你 可 能 想 动 态 地 编写 Python 代 码 , 并 将 其 作为 语句 进行 执行 或 作为 表达 式 进行 计算 。 
这 可 能 犹如 黑暗 魔法 ， 一 定 要 小 心 。exec 和 eval 现 在 都 是 函数 ， 但 exec 以 前 是 一 种 语句 ， 而 eval 
与 它 紧 密 相关 。 这 就 是 我 在 这 里 讨论 它们 的 原因 所 在 。 

































































警告 ”本 节 介 绍 如 何 执行 存储 在 字符 串 中 的 Python 代码 ， 这 样 做 可 能 带 来 严重 的 安全 隐患 。 如 
果 将 部 分 内 容 由 用 户 提供 的 字符 囊 作为 代码 执行 ， 将 无 法 控制 代码 的 行为 。 在 网 络 应 用 
程序 ， 如 第 15 章 将 介绍 的 通用 网 关 接 口 (CGI ) 脚本 中 ， 这 样 做 尤其 危险 。 


1. exec 
函数 exec 将 字符 串 作 为 代码 执行 。 


>>> exec("print('Hello, world!')") 
Hello, world! 


然而 , 调用 函数 exec 时 只 给 它 提供 一 个 参数 绝 非 好 事 。 在 大 多 数 情 况 下 ， 还 应 向 它 传递 一 个 
命名 空间 一 一 用 于 放置 变量 的 地 方 ; 否则 代码 将 污染 你 的 命名 空间 ， 即 修改 你 的 变量 。 例 如 , 假 
设 代码 使 用 了 名 称 sqrt， 结 果 将 如 何 呢 ? 


>>> from math import sqrt 
>>> exec("sqrt = 1") 
>>> sqrt(4) 
Traceback (most recent call last): 
File "<pyshell#18>", line 1, in ? 
sqrt(4) 
TypeError: object is not callable: 1 


既然 如 此 ,为何 要 将 字符 串 作 为 代码 执行 呢 ? 函数 exec 主 要 用 于 动态 地 创建 代码 字符 串 。 如 
果 这 种 字符 串 来 自 其 他 地 方 〈 可 能 是 用 户 )， 就 几乎 无 法 确定 它 将 包含 什么 内 容 。 因 此 为 了 安全 
起 见 ， 要 提供 一 个 字典 以 充当 命名 空间 。 




















注意 命名 空间 (作用 域 ) 是 个 重要 的 概念 ， 将 在 下 一 章 深入 讨论 ， 但 就 目前 而 言 ， 你 可 将 命 
名 空间 视 为 放置 变量 的 地 方 ， 类 似 于 一 个 看 不 见 的 字典 。 因 此 ， 当 你 执行 赋值 语句 Xx = 1 
时 ,将 在 当前 命名 空间 存储 键 x 和 值 1。 当 前 命名 空间 通常 是 全 局 命名 空间 ( 到 目前 为 止 ， 
我 们 使 用 的 大 都 是 全 局 命名 空间 )， 但 并 非 必 然 如 此 。 


为 此 ， 你 添加 第 二 个 参数 一 一 字典 ， 用 作 代 码 字 符 串 的 命名 空间 "。 















































Qa 实际 上 ， 可 向 exec 提 供 两 个 命名 空间 : 一 个 全 局 的 和 一 个 局 部 的 。 提 供 的 全 局 命名 空间 必须 是 字典 ， 而 提供 的 局 
部 命名 空间 可 以 是 任何 映射 。 这 一 点 也 适用 于 eval。 
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>>> from math import sqrt 
>>> scope = {} 

>>> exec('sqrt = 1', scope) 
>>> sqrt(4) 


>>> scopel['sqrt'] 





如 你 所 见 ， 可 能 带 来 破坏 的 代码 并 非 宪 盖 函 数 sqrt。 孙 数 sqrt 该 怎样 还 怎样 ， 而 通过 exec 执 
行 赋值 语句 创建 的 变量 位 于 scope 中 。 

请 注意 ， 如 果 你 尝试 将 scope 打 印 出 来 ， 将 发 现 它 包含 很 多 内 容 ， 这 是 因为 自动 在 其 中 添加 
了 包含 所 有 内 置 函 数 和 值 的 字典 _builtins _。 


>>> len(scope 
之 

>>> scope.keys() 
['sqrt', ' builtins '] 





























2. eval 

eval 是 一 个 类 似 于 exec 的 内 置 函数 。exec 执 行 一 系列 Python 语 句 ， 而 eval 计 算 用 字符 串 表 示 
的 Python 表 达 式 的 值 ， 并 返回 结果 (exec 什么 都 不 返回 ， 因 为 它 本 身 是 条 语句 )。 例如， 你 可 使 
用 如 下 代码 来 创建 一 个 Python 计算 央 : 

>>> eval(input("Enter an arithmetic expression: ")) 

Enter an arithmetic expression: 6 + 18 * 2 

42 

与 exec 一 样 ， 也 可 向 eval 提 供 一 个 命名 空间 ， 虽 然 表 达 式 通常 不 会 像 语句 那样 给 变量 重新 
赋值 。 
























































警告 ”虽然 表达 式 通常 不 会 给 变量 重新 赋值 ， 但 绝对 能 够 这 样 做 ， 如 调用 给 全 局 变量 重新 赋值 
的 函数 。 因 此 ， 将 eval 用 于 不 可 信任 的 代码 并 不 比 使 用 exec 安 全 。 当 前 ， 在 Python 中 执行 
不 可 信任 的 代码 时 ， 没 有 安全 的 办 法 。 一 种 替代 解决 方案 是 使 用 Jython ( 参见 第 17 章 ) 等 
Python 实现 ， 以 使 用 Java 沙 箱 等 原生 机 制 。 





浅 谈 作 用 域 


向 exec 或 eval 提 供 命名 空间 时 ， 可 在 使 用 这 个 命名 空间 前 在 其 中 添加 一 些 值 。 
>>> scope = {} 
>>> scope['x'] = 2 
>>> scope['y'] = 3 
>>> eval('x * y', scope) 
6 


同样 ， 同 一 个 命名 空间 可 用 于 多 次 调用 exec 或 eval。 
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>>> scope = {} 

>>> exec('x = 2', scope) 
>>> eval('x * x', scope) 
4 


采用 这 种 做 法 可 编写 出 非常 复杂 的 程序 ， 但 你 也 许 不 应 这 样 做 。 


5.8 小 结 
本 章 介 绍 了 多 种 语句 。 





后 续 print 语 句 将 在 当前 行 接着 打印 。 
口 导入 语句 : 有 时 候 ， 你 不 喜欢 要 导入 的 函数 的 名 称 
他 用 。 在 这 种 情况 下 ， 可 使 用 import ... as ... 语 句 在 本 地 重 命名 函数 。 


























增强 赋值 ， 可 就 地 修改 变量 。 




















函数 和 类 定义 中 ( 这 将 在 本 书后 面 介绍 )。 
































口 打印 语句 : 你 可 使 用 print 语 句 来 打印 多 个 用 逗号 分 隔 的 值 。 如 果 print 语 句 以 逗号 


结尾 ， 


可 能 是 因为 你 已 将 这 个 名 称 用 作 





口 赋值 语句 : 通过 使 用 奇妙 的 序列 解 包 和 链 式 赋值 ， 可 同时 给 多 个 变量 赋值 ， 而 通过 使 用 


口 代码 块 : 代码 块 用 于 通过 缩 进 将 语句 编组 。 代 码 块 可 用 于 条 件 语句 和 循环 中 ， 还 可 用 于 





口 条 件 语 句 : 条 件 语句 根据 条 件 ( 布尔 表达 式 ) 决 定 是 否 执行 后 续 代 码 块 。 通过 使 用 if/elif/ 
else， 可 将 多 个 条 件 语句 组 合 起 来 。 条 件 语句 的 一 个 变种 是 条 件 表达 式 ， 如 a if b else c。 
口 断言 : 断言 断定 某 件 事 〈 一 个 布尔 表达 式 ) 为 真 ， 可 包含 说 明 为 何必 须 如 此 的 字符 串 。 


如 果 指 定 的 表达 式 为 假 ， 断 言 将 导致 程序 停止 执行 ( 或 引发 第 8 章 将 介绍 的 异常 )。 最 好 








尽早 将 错误 揪 出 来 ， 免 得 它 潜藏 在 程序 中 ， 直 到 带 来 麻烦 。 








口 循环 : 你 可 针对 序列 中 的 每 个 元 素 ( 如 特定 范围 内 的 每 个 数 ) 执行 代码 块 ， 也 可 在 条 件 





为 真 时 反复 执行 代码 块 。 要 跳 过 代码 块 中 余下 的 代码 ， 直 接 进 入 下 一 次 迭代 ， 可 使 用 














continue 语 句 ; 要 跳出 循环 ， 可 使 用 break 语 句 。 男 外 ， 你 还 可 在 循环 末尾 添加 一 个 else 


子 句 ， 它 将 在 没有 执行 循环 中 的 任何 break 请 句 时 执行 。 

















口 推导 : 推导 并 不 是 语句 ， 而 是 表达 式 。 它 们 看 起 来 很 像 循 环 ， 因 此 我 将 它们 放 在 循环 中 
讨论 。 通 过 列表 推导 ， 可 从 既 有 列表 创建 出 新 列表 ， 这 是 通过 对 列表 元 素 调 用 函数 、 吻 
除 不 想 要 的 函数 等 实现 的 。 推 导 功 能 强大 ， 但 在 很 多 情况 下 ， 使 用 普通 循环 和 条 件 语句 
也 可 完成 任务 ， 且 代码 的 可 读 性 可 能 更 高 。 使 用 类 似 于 列表 推导 的 表达 式 可 创建 出 字典 。 

口 pass、del、exec 和 eval: pass 语 句 什么 都 不 做 ,但 适合 用 作 占 位 符 。del 语 句 用 于 删除 变 
量 或 数据 结构 的 成 员 ， 但 不 能 用 于 删除 值 。 函 数 exec 用 于 将 字符 串 作 为 Python 程序 执行 。 






































函数 eval 计 算 用 字符 串 表 示 的 表达 式 并 返回 结果 。 
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函 数 描 述 
chr(n) 返回 一 个 字符 串 ， 其 中 只 包含 一 个 字符 ， 这 个 字符 对 应 于 传人 的 顺序 值 z (0 < 
n<256) 
eval(source[ ,globals[ ,10cals]]) 计算 并 返回 字符 串 表示 的 表达 式 的 结果 


exec(source[, globals[, locals]]) 将 字符 串 作 为 语句 执行 










































































enumerate(seq) 生成 可 迭代 的 索引 - 值 对 

ord(c) 接受 一 个 只 包含 一 个 字符 的 字符 串 ， 并 返回 这 个 字符 的 顺序 值 (一 个 整数 ) 
range([start,] stop[, step]) 创建 一 个 由 整数 组 成 的 列表 

reversed(seq) 按 相反 的 顺序 返回 seq 中 的 值 ， 以 便 用 于 迭代 
sorted(seq[,cmpj[,key][,reverse]) ”返回 一 个 列表 ， 其 中 包含 Seq 中 的 所 有 值 有 这 些 值 是 经 过 排序 的 
xrange([start,] stop[, step]) 创建 一 个 用 于 迭代 的 XTange 对 象 

zip(seq1, seq2,...) 创建 一 个 适合 用 于 并 行 迭 代 的 新 序列 











5.8.2 ”预告 





至 此 , 你 学 完了 基础 知识 ,能 够 实现 任何 想象 得 到 的 算法 ,还 能 够 读 取 参数 并 打印 结果 。 在 
接 下 来 的 两 章 中 ， 你 将 学 习 抽 象 。 在 编写 较 大 的 程序 时 ， 抽 象 可 避免 你 只 见 树木 不 见 森 林 。 











抽 象 








本 章 介 绍 如 何 将 语句 组 合成 函数 ,这 让 你 能 够 告诉 计算 机 如 何 完 成 任务 , 且 只 需 说 一 次 , 无 























需 反 复 向 计算 机 传达 详细 指令 。 本 章 详 细 介 绍 参数 和 作用 域 , 还 将 讨论 递归 是 什么 及 其 在 程序 中 
的 用 途 。 


6.1 懒惰 是 一 种 美德 


前 面 编写 的 程序 都 很 小 , 但 如 果 要 编写 大 型 程序 ， 你 很 快 就 会 遇 到 麻烦 。 想 想 看 ， 如 果 你 在 
一 个 地 方 编写 了 一 些 代码 ,但 需要 在 另 一 个 地 方 再 次 使 用 ,该 如 何 办 呢 ? 例如 , 假设 你 编写 了 一 
段 代 码 ， 它 计算 一 些 辈 波 那 契 数 〈 一 种 数列 ， 其 中 每 个 数 都 是 前 两 个 数 的 和 ) 


fibs = [0, 1] 
for i in range(8): 
fibs.append(fibs[-2] + fibs[-1]) 


运行 上 述 代 码 后 ，fibs 将 包含 前 10 个 斐 波 那 契 数 。 


>>> fibs 
[0， 1 1 2 3 93 8， Ts 34] 


如 果 你 想 一 次 计算 前 10 个 斐 波 那 契 数 ， 上 述 代码 刚好 能 满足 需求 。 你 甚至 可 以 修改 前 述 for 
循环 ， 使 其 处 理 动态 的 范围 ， 即 让 用 户 指定 最 终 要 得 到 的 序列 的 长 度 。 

fibs = [0, 1] 

num = int(input('How many Fibonacci numbers do you want? ')) 

for i in range(num-2): 

fibs.append(fibs[-2] + fibs[-1]) 

print(fibs) 

如 果 要 使 用 这 些 数 字 做 其 他 事情 ， 该 如 何 办 呢 ? 当然 ， 你 可 以 在 需要 时 再 次 编写 这 个 循环 ， 
但 如 果 已 编写 好 的 代码 更 复杂 呢 ( 如 下 载 一 组 网 页 并 计算 所 有 单词 的 使 用 频率 )? 在 这 种 情况 下 ， 
你 还 愿意 多 次 编写 这 些 代码 吗 〈 每 当 需 要 时 就 编写 一 次 ) ? 不 ， 真 正 的 程序 员 是 不 会 这 样 做 的 。 
真正 的 程序 员 很 懒 。 这 里 说 的 懒 不 是 贬义 词 ， 而 是 说 不 做 无 谓 的 工作 。 

那么 真正 的 程序 员 会 如 何 做 呢 ? 让 程序 更 抽象 .要 让 前 面 的 程序 更 抽象 , 可 以 像 下 面 这 样 做 : 


num = input( "How many numbers do you want? ') 
print(fibs(num)) 
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在 这 里 ， 只 具体 地 编写 了 这 个 程序 独特 的 部 分 〈 读 取 数字 并 打印 结果 )。 实 际 上 ， 斐 波 那 契 
数 的 计算 是 以 抽象 的 方式 完成 的 : 你 只 是 让 计算 机 这 样 做 ， 而 没有 具体 地 告诉 它 如 何 做 。 你 创建 
了 一 个 名 为 fibs 的 函数 ,并 在 需要 计算 斐 波 那 契 数 时 调用 它 。 如 果 需 要 在 多 个 地 方 计算 裴 波 那 契 
数 ， 这 样 做 可 节省 很 多 精力 。 


6.2 ”抽象 和 结构 


抽象 可 节省 人 力 , 但 实际 上 还 有 个 更 重要 的 优点 : 抽象 是 程序 能 够 被 人 理解 的 关键 所 在 (无 
论 对 编写 程序 还 是 阅读 程序 来 说 ， 这 都 至 关 重 要 )。 计算 机 本 身 喜 欢 具 体 而 明确 的 指令 , 但 人 通 
常 不 是 这 样 的 。 例 如 ， 如 果 你 向 人 打听 怎么 去 电影 院 ， 就 不 希望 对 方 回答 :“ 向 前 走 10 步 ， 向 左 
转 90 度 ， 接 着 走 5 步 ， 再 向 右 转 4$ 度 ， 然 后 走 123 步 。” 听 到 这 样 的 回答 ， 你 肯定 一 头 雾 水 。 

如 果 对 方 回答 :“ 沿 这 条 街 往 前 走 , 看 到 过 街 天 桥 后 走 到 马路 对 面 ,电影 院 就 在 你 左边 。” 你 
肯定 能 明白 。 这 里 的 关键 是 你 知道 如 何 沿街 往 前 走 ,也 知道 如 何 过 天 桥 ， 因 此 不 需要 有 关 这 些 方 
面 的 具体 说 明 。 

组 织 计 算 机 程序 时 ， 你 也 采取 类 似 的 方式 。 程 序 应 非常 抽象 ， 如 下 载 网 页 、 计 算 使 用 频率 、 
打印 每 个 单词 的 使 用 频率 。 这 很 容易 理解 。 下 面 就 将 前 述 简单 描述 转换 为 一 个 Python 程 序 。 


page = download page() 

freqs = compute frequencies(page) 

for word, freq in freqs: 
print(word, freq) 


看 到 这 些 代码 , 任何 人 都 知道 这 个 程序 是 做 什么 的 。 然而 , 至 于 具体 该 如 何 做 , 你 未 置 一 词 。 
尔 只 是 让 计算 机 去 下 载 网 页 并 计算 使 用 频率 ,至 于 这 些 操 作 的 具体 细节 , 将 在 其 他 地 方 (独立 的 
函数 定义 ) 中 给 出 。 


6.3” 自 定义 函数 


函数 执行 特定 的 操作 并 返回 一 个 值 "， 你 可 以 调用 它 〈 调 用 时 可 能 需要 提供 一 些 参数 一 一 放 
在 圆 括号 中 的 内 容 )。 一 般 而 言 ， 要 判断 某 个 对 象 是 否 可 调用 ， 可 使 用 内 置 函 数 callable。 


>>> import math 
>>>x=1 

>>> y = math.sqrt 
>>> callable(x) 
False 

>>> callable(y) 
True 


前 一 节 说 过 ， 函 数 是 结构 化 编程 的 核心 。 那 么 如 何 定 义 函数 呢 ? 使 用 def ( 表示 定义 函数 ) 
语句 。 
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@ 实际 上 ， 在 Python 中 并 非 所 有 的 函数 都 返回 值 ， 这 将 在 本 章 后 面 详细 介绍 。 
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def hello(name): 
return 'Hello, ' + name + '! 


运行 这 些 代码 后 ， 将 有 一 个 名 为 hell0 的 新 函数 。 它 返回 一 个 字符 串 ， 其 中 包含 向 唯一 参数 
间 定 的 人 发 出 的 问候 语 。 你 可 像 使 用 内 置 函 数 那样 使 用 这 个 函数 。 

>>> print(hello('world')) 

Hello, world! 

>>> print(hello('Gumby')) 

Hello, Gumby! 

很 不 错 吧 ? 如 果 编 写 一 个 函数 , 返回 一 个 由 斐 波 那 契 数 组 成 的 列表 呢 ? 很 容易 ! 只 需 使 用 前 
面 介 绍 的 代码 ， 但 不 从 用 户 那 里 读 取 数字 ， 而 是 通过 参数 来 获取 。 


def fibs(num): 
result = [0, 1] 
for i in range(num-2): 
result.append(result[-2] + result[-1]) 
return result 


执行 这 些 代码 后 ， 解 释 器 就 知道 如 何 计 算 斐 波 那 契 数 了 。 现 在 你 不 用 再 关心 这 些 细节 ， 而 只 
需 调用 水 数 fibs。 

>>> fibs(10) 

[oA 2 3 21 | 


>>> fibs(15) 
[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233，377] 


在 这 个 示例 中 ,num 和 result 也 可 以 使 用 其 他 名 字 , 但 return 语 句 非 常 重要 。return 语 句 用 于 
从 函数 返回 值 (在 前 面 的 hello 函 数 中 ，return 语 句 的 作用 也 是 一 样 的 )。 


6.3.1 给 函数 编写 文档 


要 给 函数 编写 文档 ， 以 确保 其 他 人 能 够 理解 ， 可 添加 注释 ( 以 硅 [ 头 的 内 容 )。 还 有 另 一 种 
编写 注释 的 方式 ， 就 是 添加 独立 的 字符 串 。 在 有 些 地 方 ， 如 def 语 名 后 面 ( 以 及 模块 和 类 的 开 
头 ， 这 将 在 第 7 章 和 第 10 章 详细 介绍 )， 添 加 这 样 的 字符 串 很 有 用 。 放 在 函数 开头 的 字符 串 称 为 
文档 字符 串 ( docstring ), 将 作为 函数 的 一 部 分 存储 起 来 。 下面 的 代码 演示 了 如 何 给 函数 添加 文 
档 字 符 串 : 

def square(x): 


'Calculates the square of the number x.’ 
return X * x 


可 以 像 下 面 这 样 访问 文档 字符 串 : 
>>> square. doc 
‘Calculates the square of the number x." 



































注意 _doc 是 函数 的 一 个 属性 。 属 性 将 在 第 7 章 详细 介绍 。 属 性 名 中 的 双 下 划 线 表示 这 是 一 
个 特殊 的 属性 。 特 殊 (“魔法 ”) 属性 将 在 第 9 章 讨论 。 
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特殊 的 内 置 函数 help 很 有 用 。 在 交互 式 解释 器 中 ,可 使 用 它 获取 有 关 困 数 的 信息 ， 其 中 包含 
函数 的 文档 字符 串 。 
>>> help(square) 


Help on function Square in module main : 


square(x) 
Calculates the square of the number x. 


在 第 10 章 ， 你 还 会 遇 到 函数 help。 
6.3.2 ”其 实 并 不 是 函数 的 函数 


数学 意义 上 的 函数 总 是 返回 根据 参数 计算 得 到 的 结果 。 在 Python 中 , 有 些 函 数 什么 都 不 返回 。 
在 诸如 Pascal 等 的 语言 中 ， 这 样 的 函数 可 能 另 有 其 名 〈 如 过 程 )， 但 在 Python 中 ， 柱 数 就 是 函数 ， 
即使 它 严格 来 说 并 非 函 数 。 什 么 都 不 返回 的 函数 不 包含 return 语 句 ， 或 者 包含 return 语 句 ， 但 没 
有 在 return 后 面 指定 值 。 
def test() : 
print('This is printed') 
return 
print('This is not') 
这 里 使 用 return 语 句 只 是 为 了 结束 函数 。 
>>> x = test() 
This is printed 
如 你 所 见 ， 跳 过 了 第 二 条 print 语 句 。( 这 有 点 像 在 循环 中 使 用 preak， 但 跳出 的 是 函数 。) 既 
然 test 什 么 都 不 返回 ， 那 么 x 指 向 的 是 什么 呢 ? 下 面 就 来 看 看 ; 


人 
>>> 


什么 都 没有 。 再 仔细 地 看 看 。 

>>> print(x) 

None 

这 是 一 个 你 熟悉 的 值 : None。 由 此 可 知 ， 所 有 的 函数 都 返回 值 。 如 果 你 没有 告诉 它们 该 返回 
什么 ， 将 返回 None。 




































































警告 ”不 要 让 这 种 默认 行为 带 来 麻烦 。 如 果 你 在 计 之 类 的 语句 中 返回 值 ， 务 必 确 保 其 他 分 支 也 
返回 值 ， 以 免 在 调用 者 期 望 函数 返回 一 个 序列 时 ( 举 个 例子 )， 不 小 心 返回 了 None。 


6.4 ”参数 魔法 
函数 使 用 起 来 很 简单 ， 创 建 起 来 也 不 那么 复杂 ,但 要 习惯 参数 的 工作 原理 就 不 那么 容易 了 。 
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先 从 简单 的 着 手 。 


6.4.1 值 从 哪里 来 


定义 函数 时 ， 你 可 能 心 存 疑虑 : 参数 的 值 是 怎么 来 的 呢 ? 

通常 ,你 不 用 为 此 操心 。 编 写 函数 旨 在 为 当前 程序 ( 甚至 其 他 程序 ) 提供 服务 ,你 的 职责 
确保 它 在 提供 的 参数 正确 时 完成 任务 ， 并 在 参数 不 对 时 以 显而易见 的 方式 失败 。( 为 此 ， 通 党 
用 断言 或 异常 。 异 常 将 在 第 8 童 详细 介绍 。) 





























党 并 
































注意 在 def 语 名 中 ,位 于 函数 名 后 面 的 变量 通常 称 为 形 参 ， 而 调用 函数 时 提供 的 值 称 为 实 参 ， 
但 本 书 基本 不 对 此 做 严格 的 区 分 。 在 很 重要 的 情况 下 ,我 会 将 实 参 称 为 值 ， 以 便 将 其 与 
类 似 于 变量 的 形 参 区 分 开 来 。 


6.4.2 ”我 能 修改 参数 吗 
函数 通过 参数 获得 了 一 系列 的 值 , 你 能 对 其 进行 修改 吗 ?” 如果 这 样 做 , 结果 将 如 何 ? 参数 不 
过 是 变量 而 已 ， 行 为 与 你 预期 的 完全 相同 。 在 函数 内 部 给 参数 赋值 对 外 部 没有 任何 影响 。 


>>> def try to _ change(n): 
n= Mr. Gumby’ 





























>>> name = 'Mrs. Entity” 
>>> try_to_change(name) 
>>> name 

"MTS。Entity 


在 try_to_change 内 ， 将 新 值 赋 给 了 参数 n， 但 如 你 所 见 ， 这 对 变量 name 没 有 影响 。 说 到 底 ， 
这 是 一 个 完全 不 同 的 变量 。 传 递 并 修改 参数 的 效果 类 似 于 下 面 这 样 : 


>>> name = 'Mrs. Entity’ 





>>> n = name # 与 传递 参数 的 效果 几乎 相同 
>>> n = "Mr. Gumby' # 这 是 在 函数 内 进行 的 

>>> name 

“MTS。Entity 














这 里 的 结果 显而易见 : 变量 n 变 了 ， 但 变量 name 没 变 。 同 样 ， 在 函数 内 部 重新 关联 参数 即 
给 它 赋 值 ) 时 ， 函 数 外 部 的 变量 不 受 影响 。 


注意 ”参数 存储 在 局 部 作用 域内 。 作 用 域 将 在 本 章 稍 后 讨论 。 


字符 串 〈 以 及 数 和 元 组 ) 是 不 可 变 的 〈immutable )， 这 意味 着 你 不 能 修改 它们 ( 即 只 能 替换 
为 新 值 )。 因此 这 些 类 型 作为 参数 没什么 可 说 的 。 但 如 果 参 数 为 可 变 的 数据 结构 〈 如 列表 ) 呢 ? 


>>> def change(n): 
n[0] = 'Mr. Gumby 
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>>> names = ['Mrs. Entity', 'Mrs. Thing'] 

>>> change(names) 

>>> names 

['Mr. Gumby', 'Mrs. Thing'] 

在 这 个 示例 中 ,也 在 函数 内 修改 了 参数 ,但 这 个 示例 与 前 一 个 示例 之 间 存 在 一 个 重要 的 不 同 。 
在 前 一 个 示例 中 ， 只 是 给 局 部 变量 赋 了 新 值 ， 而 在 这 个 示例 中 ,修改 了 变量 关联 到 的 列表 。 这 很 
奇怪 吧 ? 其 实 不 那么 奇怪 。 下 面 再 这 样 做 一 次 ， 但 这 次 不 使 用 函数 调用 。 


>>> names = ['Mrs. Entity', 'Mrs. Thing'] 




















>>> n = names # 再 次 假装 传递 名 字 作 为 参数 
>>> n[0] = 'Mr. Gumby' # 修改 列表 
>>> Names 


['Mr. Gumby', 'Mrs. Thing'] 

这 样 的 情况 你 早 就 见 过 。 将 同一 个 列表 赋 给 两 个 变量 时 ， 这 两 个 变量 将 同时 指向 这 个 列表 。 
就 这 么 简单 。 要 避免 这 样 的 结果 ， 必 须 创 建 列表 的 副本 。 对 序列 执行 切片 操作 时 , 返回 的 切片 都 
是 副本 。 因 此 ， 如 果 你 创建 覆盖 整个 列表 的 切片 ， 得 到 的 将 是 列表 的 副本 。 

>>> names = ['Mrs. Entity', 'Mrs. Thing'] 

>>> n = names[:] 

现在 n 和 names 包 含 两 个 相等 但 不 同 的 列表 。 


>>> n is names 
False 
>>> n == names 
True 


现在 如 果 ( 像 在 函数 change 中 那样 ) 修改 n， 将 不 会 影响 names。 


>>> n[0] = "Mr. Gumby' 

>>> n 

['Mr. Gumby', 'Mrs. Thing'] 
>>> names 

['Mrs. Entity', 'Mrs. Thing'] 


下 面 来 尝试 结合 使 用 这 种 技巧 和 函数 change。 


>>> change(names[:]) 
>>> names 
['Mrs. Entity', 'Mrs. Thing'] 


注意 到 参数 n 包 含 的 是 副本 ， 因 此 原始 列表 是 安全 的 。 


























注意 ”你 可 能 会 问 , 郊 数 内 的 局 部 名 称 ( 包括 参数 ) 会 与 函数 外 的 名 称 ( 即 全 局 名 称 ) 冲突 吗 ? 
答案 是 不 会 。 有 关 这 方面 的 详细 信息 ， 请 参阅 本 章 后 面 对 作 用 域 的 讨论 。 


1. 为 何 要 修改 参数 
在 提高 程序 的 抽象 程度 方面 , 使 用 函数 来 修改 数据 结构 ( 如 列表 或 字典 ) 是 一 种 不 错 的 方式 。 
假设 你 要 编写 一 个 程序 ， 让 它 存储 姓名 ， 并 让 用 户 能 够 根据 名 字 、 中 间 名 或 姓 找 人 。 为 此 ， 你 可 
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能 使 用 一 个 类 似 于 下 面 的 数据 结构 : 


storage = {} 


storage[ 'first'] = { 
storage[ 'middle'] 
storage['last'] = 


} 
二村 
{} 








数据 结构 storage 是 一 个 字典 ， 包含 3 个 键 :'first' 、'middle' 和 '1last'。 在 每 个 键 下 都 存储 
了 一 个 字典 。 这 些 子 字 典 的 键 为 姓名 ( 名字、 中 间 名 或 姓 )， 而 值 为 人 员 列 表 。 例 如 ， 要 将 作者 
加 入 这 个 数据 结构 中 ， 可 以 像 下 面 这 样 做 : 


>>> me = 'Magnus Lie Hetland 


>>> storage 
>>> storage 
>>> storage 


每 个 键 下 省 








'first']['Magnus'] = [me] 
‘middle' |]['Lie'] = [me] 
'last']['Hetland'] = [me] 


Bb 存储 了 一 个 人 员 列 表 。 在 这 个 例子 里 ， 这 些 列表 只 包含 作者 。 


现在 ， 要 获取 中 间 名 为 Lie 的 人 员 名 单 ， 可 像 下 面 这 样 做 : 








>>> storage 


'middle']['Lie'] 


['Magnus Lie Hetland'] 


如 你 所 见 ， 


将 人 员 添 加 到 这 个 数据 结构 中 有 点 繁琐 ,在 多 个 人 的 名 字 、 中 间 名 或 姓 相同 时 万 


其 如 此 ， 因 为 在 这 种 情况 下 需要 对 存储 在 名 字 、 中 间 名 或 姓 下 的 列表 进行 扩展 。 下 面 来 添加 我 的 
妹妹 ， 并 假设 我 们 不 知道 数据 库 中 存储 了 什么 内 容 。 


>>> my_sister = 'Anne Lie Hetland 





>>> storage 
>>> storage 
>>> storage 
>>> storage 








'first'].setdefault('Anne', []).append(my_sister) 
'middle'].setdefault('Lie', []).append(my_sister) 
'last'].setdefault('Hetland', []).append(my sister) 
'first']['Anne'] 


['Anne Lie Hetland'] 


>>> storage 


'middle']['Lie'] 


['Magnus Lie Hetland', 'Anne Lie Hetland'] 


可 以 想见 ， 


编写 充斥 着 这 种 更 新 的 大 型 程序 时 ,代码 将 很 快 变 得 混乱 不 堪 。 





抽象 的 关键 在 于 隐藏 所 有 的 更 新 细节 ,为 此 可 使 用 函数 。 下 面 首先 来 创建 一 个 初始 化 数据 结 


构 的 函数 。 


def init(da 


ta): 





dataf'first'] 兰 : 人 位 


data[ 'm 


iddle'] = {} 


data[ 'last'] = {} 
这 里 只 是 将 初始 化 语句 移 到 了 一 个 函数 中 。 你 可 像 下 面 这 样 使 用 这 个 函数 : 


>>> storage 











人 


>>> init(storage) 


>>> storage 


{'middle': {}, 'last': {}, 'first': {}} 


如 你 所 见 ， 








这 个 函数 承担 了 初始 化 职责 ， 让 代码 的 可 读 性 高 了 很 多 。 


6.4 参数 魔法 97 





注意 在 字典 中 ， 键 的 排列 顺序 是 不 国定 的 ， 因 此 打印 字典 时 ， 每 次 的 顺序 都 可 能 不 同 。 如 果 
你 在 解释 器 中 打印 出 来 的 顺序 不 同 ， 请 不 用 担心 。 


下 面 先 来 编写 获取 人 员 姓 名 的 函数 ， 再 接着 编写 存储 人 员 姓 名 的 函数 。 
def lookup(data, label, name): 
return data[label].get(name) 


函数 lookup 接 受 参数 label ( 如 'middle' ) 和 name ( 如 'Lie' ), 并 返回 一 个 由 全 名 组 成 的 列表 。 
换 而 言 之 ， 如 果 已 经 存储 了 作者 的 姓名 ， 就 可 以 像 下 面 这 样 做 : 

>>> lookup(storage, 'middle', 'Lie') 

['Magnus Lie Hetland'] 

请 注意 , 返回 的 是 存储 在 数据 结构 中 的 列表 。 因 此 如 果 对 返回 的 列表 进行 修改 , 将 影响 数据 
结构 。( 未 找到 任何 人 时 除外 ， 因 为 在 这 种 情况 下 返回 的 是 None。 ) 

下 面 来 编写 将 人 员 存 储 到 数据 结构 中 的 函数 。( 如 果 不 能 马上 看 懂 这 个 函数 ， 也 不 用 担心 。) 

def store(data, full name): 

names = full name.split() 


if len(names) == 2: names.insert(1, '') 
labels = 'first', "middle'" ， "last 




















for label, name in zip(labels, names): 
people = lookup(data, label, name) 
if people: 
people.append(full name) 
else: 
data[label][name] = [full name] 
函数 store 执 行 如 下 步骤 。 
(1) 将 参数 data 和 full_name 提 供给 这 个 函数 。 这 些 参数 被 设置 为 从 外 部 获得 的 值 。 
(2) 通过 拆 分 full_name 创 建 一 个 名 为 names 的 列表 。 
(3) 如 果 names 的 长 度 为 2 ( 只 有 名 字 和 姓 )， 就 将 中 间 名 设置 为 空 字符 串 。 
(将 'first' 、'middle' 和 '1ast' 存 储 在 元 组 labels 中 (也 可 使 用 列表 ， 这 里 使 用 元 组 只 是 为 
了 省 略 方 插 号 )。 
(5) 使 用 函数 zip 将 标签 和 对 应 的 名 字 合 并 ， 以 便 对 每 个 标签 -名 字 对 执行 如 下 操作 : 
口 获取 属于 该 标签 和 名 字 的 列表 ; 
口 将 full_name 附 加 到 该 列表 未 尾 或 插入 一 个 新 列表 。 
下 面 来 尝试 运行 该 程序 : 
>>> MyNames = {} 
>>> init(MyNames ) 
>>> store(MyNames, "Magnus Lie Hetland') 


>>> lookup(MyNames, 'middle', 'Lie') 
['Magnus Lie Hetland'] 


看 起 来 能 正确 地 运行 。 下 面 再 来 尝试 几 次 。 
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>>> store(MyNames, 'Robin Hood') 

>>> store(MyNames, 'Robin Locksley') 

>>> lookup(MyNames, 'first', 'Robin') 

['Robin Hood', 'Robin Locksley'] 

>>> store(MyNames, 'Mr. Gumby') 

>>> lookup(MyNames, 'middle', '') 

['Robin Hood', 'Robin Locksley', 'Mr. Gumby'] 


如 你 所 见 ， 如 果 多 个 人 的 名 字 、 中 间 名 或 姓 相 同 ， 可 同时 获取 这 些 人 员 。 
注意 ”这 种 程序 非常 适合 使 用 面向 对 象 编程 ， 这 将 在 下 一 章 介 绍 。 


2. 如 果 参 数 是 不 可 变 的 

在 有 些 语 言 (如 C++、Pascal 和 Ada ) 中 , 经常 需要 给 参数 赋值 并 让 这 种 修改 影响 函数 外 部 的 变 
量 。 在 Python 中 ， 没 法 直接 这 样 做 ， 只 能 修改 参数 对 象 本 身 。 但 如 果 参 数 是 不 可 变 的 〈 如 数 ) 呢 ? 

不 好 意思 ， 没 办 法 。 在 这 种 情况 下 ， 应 从 函数 返回 所 有 需要 的 值 (如果 需 要 返回 多 个 值 ， 就 
以 元 组 的 方式 返回 它们 )。 例 如 ， 可 以 像 下 面 这 样 编写 将 变量 的 值 加 1 的 函数 : 


>>> def inc(x): return x + 1 





























>>> foo = 10 


>>> foo = inc(foo) 
>>> foo 
4 


如 果 一 定 要 修改 参数 ， 可 玩 点 花样 ， 比 如 将 值 放 在 列表 中 ， 如 下 所 示 : 
>>> def inc(x): x[0] = x[0] + 1 

5 foo = [10] 

>>> inc(foo) 


>>> foo 
[11] 


但 更 清晰 的 解决 方案 是 返回 修改 后 的 值 。 


6.4.3 ”关键 字 参 数 和 默认 值 


前 面 使 用 的 参数 都 是 位 置 参数 ,因为 它们 的 位 置 至 关 重 要 一 一 事实 上 比 名 称 还 重要 。 本 节 介 
绍 的 技巧 让 你 能 够 完全 忽略 位 置 。 要 熟悉 这 种 技巧 需要 一 段 时 间 , 但 随 着 程序 规模 的 增 大 , 你 很 
快 就 会 发 现 它 很 有 用 。 

请 看 下 面 两 个 函数 : 


def hello 1(greeting, name): 
print('{}, {}!'.format(greeting, name)) 














def hello 2(name, greeting): 
print('{}, {}!'.format(name, greeting)) 
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这 两 个 函数 的 功能 完全 相同 ， 只 是 参数 的 排列 顺序 相反 。 


>>> hello 1('Hello', 'world') 
Hello, world! 
>>> hello 2('Hello', 'world') 
Hello, world! 


有 了 时候, 参数 的 排列 顺序 可 能 难以 记 住 ， 尤 其 是 参数 很 多 时 。 为 了 简化 调用 工作 ， 可 指定 参 
数 的 名 称 。 


>>> hello 1(greeting='Hello', name="'world') 
Hello, world! 


在 这 里 ， 参 数 的 顺序 无 关 紧 要 。 


>>> hello 1(name="'world', greeting="'Hello') 
Hello, world! 


不 过 名 称 很 重要 《〈 你 可 能 猜 到 了 )。 


>>> hello 2(greeting='Hello', name="'world') 
world,Hello! 


像 这 样 使 用 名 称 指定 的 参数 称 为 关键 字 参 数 , 主要 优点 是 有 助 于 浴 清 各 个 参数 的 作用 。 这 样 ， 
函数 调用 不 再 像 下 面 这 样 怪异 而 神秘 : 

>>> store('Mr. Brainsample', 10, 20, 13, 5) 

可 以 像 下 面 这 样 做 : 


>>> store(patient='Mr. Brainsample', hour=10, minute=20, day=13, month=5) 


虽然 这 样 做 的 输入 量 多 些 ， 但 每 个 参数 的 作用 清晰 明了 。 男 外 ， 参 数 的 顺序 错 了 也 没关系 。 
然而 ， 关 键 字 参数 最 大 的 优点 在 于 ， 可 以 指定 默认 值 。 


def hello 3(greeting='Hello', name="world'): 
print('{}, {}!'.format(greeting, name)) 


像 这 样 给 参数 指定 默认 值 后 , 调用 函数 时 可 不 提供 它 ! 可 以 根据 需要 , 一 个 参数 值 也 不 提供 、 
提供 部 分 参数 值 或 提供 全 部 参数 值 。 


>>> hello 3() 

Hello, world! 

>>> hello 3('Greetings’') 

Greetings, world! 

>>> hello 3('Greetings', "univetrse ') 
Greetings, universe! 


如 你 所 见 ， 仅 使 用 位 置 参数 就 很 好 ， 只 不 过 如 果 要 提供 参数 name ， 必 须 同时 提供 参数 
greeting。 如 果 只 想 提 供 参数 name, 并 让 参数 greeting 使 用 默认 值 呢 y 相信 你 已 猜 到 该 怎么 做 了 。 


>>> hello 3(name="'Gumby') 
Hello, Gumby! 


很 巧妙 吧 ? 还 不 止 这 些 。 你 可 结合 使 用 位 置 参数 和 关键 字 参 数 , 但 必须 先 指定 所 有 的 位 置 参 
数 ， 否 则 解释 器 将 不 知道 它们 是 哪个 参数 即 不 知道 参数 对 应 的 位 置 )。 
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注意 通常 不 应 结合 使 用 位 置 参 数 和 关键 字 和 参数， 除非 你 知道 这 样 做 的 后 果 。 一 般 而 言 ， 除 非 
必 不 可 少 的 参数 很 少 ， 而 带 上 默认 值 的 可 选 参数 很 多 ， 否 则 不 应 结合 使 用 关键 字 参 数 和 位 
置 参数 。 


例如 ， 函 数 hello 可 能 要 求 必须 指定 姓名 ， 而 问候 语 和 标点 是 可 选 的 。 


def hello 4(name, greeting="'Hello', punctuation="!"): 
print('{}, {}{}'.format(greeting, name, punctuation)) 


调用 这 个 函数 的 方式 很 多 ， 下 面 是 其 中 的 一 些 : 


>>> hello 4('Mars') 
Hello, Mars! 
>>> hello 4('Mars', "Howdy ) 
Howdy, Mars! 
>>> hello 4(' 
Howdy, Mars... 
>>> hello 4('Mars', punctuation=".') 
Hello, Mars. 
>>> hello 4('Mars', greeting='Top of the morning to ya') 
Top of the morning to ya, Mars! 
>>> hello 4() 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: hello 4() missing 1 required positional argument: "name ' 


ars', 'Howdy', '...') 

















注意 ”如果 给 参数 name 也 指定 了 默认 值 ， 最 后 一 个 调用 就 不 会 引发 异常 。 


非常 灵活 , 不 是 吗 ? 而且 无 需 做 太 多 的 工作 就 能 获得 这 样 的 灵活 性 。 在 下 一 节 中 ,我 们 将 提 
供 更 大 的 灵活 性 。 


6.4.4 ”收集 参数 


有 时 候 ， 允 许 用 户 提供 任意 数量 的 参数 很 有 用 。 例 如 ,在 本 章 前 面 的 姓名 存储 示例 中 ( 参见 
6.4.2 节 )， 每 次 只 能 存储 一 个 姓名 。 如 果 能 够 像 下 面 这 样 同时 存储 多 个 姓名 就 好 了 : 
>>> store(data, name1, name2, name3) 
为 此 ， 应 允许 用 户 提 供 任意 数量 的 姓名 。 实 际 上 ， 这 实现 起 来 并 不 难 。 
请 尝试 使 用 下 面 这 样 的 函数 定义 : 
def print params(*params): 
print(params) 


这 里 好 像 只 指定 了 一 个 参数 , 但 它 前 面 有 一 个 星 号 。 这 是 什么 意思 呢 ? 尝试 使 用 一 个 参数 来 
调用 这 个 函数 ， 看 看 结果 如 何 。 


>>> print params('Testing') 
('Testing',) 
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注意 到 打印 的 是 一 个 元 组 ,因为 里 面 有 一 个 逗号 。 这 么 说 ,前面 有 星 号 的 参数 将 被 放 在 元 组 
中 ? 复数 params 应 该 提供 了 线索 。 


>>> print params(1, 2, 3) 
(1, 2, 3) 


参数 前 面 的 星 号 将 提供 的 所 有 值 都 放 在 一 个 元 组 中 , 也 就 是 将 这 些 值 收集 起 来 。 这 样 的 行 > 
我 们 在 5.2.1 节 见 过 :赋值 时 带 星 号 的 变量 收集 多 余 的 值 。 它 收集 的 是 列表 而 不 是 元 组 中 多 余 的 值 ， 
但 除 此 之 外 ， 这 两 种 用 法 很 像 。 下 面 再 来 编写 一 个 函数 : 


def print params 2(title, *params): 
print(title) 
print(params) 
并 尝试 调用 它 : 
>>> print params 2('Params:', 1, 2, 3) 
Params: 
































i EE 
因此 星 号 意味 着 收集 余下 的 位 置 参 数 。 如 果 没 有 可 供 收 集 的 参数 ，params 将 是 一 个 空 元 组 。 


>>> print params 2('Nothing:') 
Nothing: 
() 


与 赋值 时 一 样 ， 带 星 号 的 参数 也 可 放 在 其 他 位 置 ( 而 不 是 最 后 )， 但 不 同 的 是 ， 在 这 种 情况 
下 你 需要 做 些 额 外 的 工作 : 使 用 名 称 来 指定 后 续 参 数 。 


>>> def in the middle(x, *y, z): 
print(x, y, z) 





>>> in the middle(1, 2, 3, 4, 5, Zz=7) 
1 (2 3 dy 0) 
>>> in the middle(1, 2, 3, 4, 5, 7) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: in the middle() missing 1 required keyword-only argument: 'z"' 


星 号 不 会 收集 关键 字 参 数 。 


>>> print params 2('Hmm...', something=42) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: print params 2() got an unexpected keyword argument 'something' 


要 收集 关键 字 参 数 ， 可 使 用 两 个 星 号 。 


>>> def print params 3(**params): 
print(params) 





>>> print params 3(x=1, y=2, z=3) 
{2 Be 


如 你 所 见 ， 这 样 得 到 的 是 一 个 字典 而 不 是 元 组 。 可 结合 使 用 这 些 技术 。 
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def print params 4(x, y, z=3, *pospar, **keypar): 
print(x, y, 2) 
print(pospar) 
print(keypar) 


其 效果 与 预期 的 相同 。 


>>> print params 4(1, 2, 3, 5, 6, 7, foo=1, bar=2) 
123 
(5, 6, 7) 
{Foo .bar.2} 

>>> print params 4(1, 2) 
123 

@ 

{} 

















过 结合 使 用 这 些 技术 ,可 做 的 事情 很 多 。 如 果 你 想 知 道 结合 方式 的 工作 原理 ( 或 是 否 可 以 
a 动手 试 一 试 即 可 ! 在 下 一 节 你 将 看 到 ,， 不管 在 函数 定义 中 是 否 使 用 了 * 和 **， 都 可 在 
函数 调用 中 使 用 它们 。 

现在 回 到 最 初 的 问题 ， 如 何在 姓名 存储 示例 中 使 用 这 种 技术 ?解决 方案 如 下 : 


def store(data, *full names): 
for full name in full names: 
names = full name.split() 
if len(names) == 2: names.insert(1, '') 
labels = 'first', 'middle', 'last'’ 
for label, name in zip(labels, names): 
people = lookup(data, label, name) 
if people: 
people.append(full name) 
else: 
data[label][name] = [full name] 


这 个 函数 调用 起 来 与 只 接受 一 个 姓名 的 前 一 版 一 样 容易 。 


>>> d= {} 
>>> init(d 
>>> store(d, 'Han Solo') 


但 现在 你 也 可 以 这 样 做 : 


>>> store(d, 'Luke Skywalker', 'Anakin Skywalker') 
>>> lookup(d, 'last', 'Skywalker') 
[ Luke Skywalker', 'Anakin Skywalker'] 


6.4.5 ”分 配 参 数 


前 面 介绍 了 如 何 将 参数 收集 到 元 组 和 字典 中 ,但 用 同样 的 两 个 运算 符 (* 和 ** ) 也 可 执行 相 
反 的 操作 。 与 收集 参数 相反 的 操作 是 什么 呢 ?” 假 设 有 如 下 函数 : 


def add(x, y): 
return x+y 





























注意 ”模块 operator 提 供 了 这 个 函数 的 高 效 版 本 。 





同时 假设 还 有 一 个 元 组 ， 其 中 包含 两 个 你 要 相 加 的 数 。 

params = (1, 2) 

这 与 前 面 执行 的 操作 差不多 是 相反 的 : 不 是 收集 参数 ， 而 是 分 配 参 数 。 这 是 通过 在 调用 函数 
( 而 不 是 定义 函数 ) 时 使 用 运算 符 * 实 现 的 。 


>>> add(*params) 
3 


这 种 做 法 也 可 用 于 参数 列表 的 一 部 分 ,条件 是 这 部 分 位 于 参数 列表 末尾 ,通过 使 用 运算 符 **， 
可 将 字典 中 的 值 分 配给 关键 字 参 数 。 如 果 你 像 前 面 那 样 定义 了 函数 hello_ 3， 就 可 像 下 面 这 样 做 : 


>>> params = {'name': 'Sir Robin', 'greeting': 'Well met'} 
>>> hello 3(**params) 
Well met, Sir Robinl 


如 果 在 定义 和 调用 函数 时 都 使 用 * 或 **， 将 只 传递 元 组 或 字典 。 因 此 还 不 如 不 使 用 它们 ， 还 
可 省 却 些 麻烦 。 


>>> def with stars(**kwds): 
print(kwds['name'], 'is', kwds['age' ], 'years ol1d') 







































































>>> def without stars(kwds): 
print(kwds['name'], 'is', kwds['age' ], 'years ol1d') 


>>> args = {'name': 'Mr. Gumby', 'age': 42} 
>>> with stars(**args) 

Mr. Gumby is 42 years old 

>>> without stars(args) 

Mr. Gumby is 42 years old 


如 你 所 见 ， 对 于 函数 with_stars， 我 在 定义 和 调用 它 时 都 使 用 了 星 号 ， 而 对 于 函数 without_ 
stars, 我 在 定义 和 调用 它 时 都 没有 使 用 , 但 这 两 种 做 法 的 效果 相同 。 因此， 只 有 在 定义 函数 (人 允 
许可 变数 量 的 参数 ) 或 调用 也 数 时 ( 拆 分 字典 或 序列 ) 使 用 ， 星 号 才能 发 挥 作 用 。 














提示 “使 用 这 些 拆 分 运算 符 来 传递 参数 很 有 用 ， 因 为 这 样 无 需 操心 参数 个 数 之 类 的 问题 ， 如 下 
所 示 : 
def foo(x, y, z, m=0, nN=0): 
print(x, y, z, m, nN) 
def call foo(*args, **kwds): 
print("Calling foo!") 
foo(*args, **kwds) 


这 在 调用 超 类 的 构造 函数 时 特别 有 用 ( 有 关 这 方面 的 详细 信息 ， 请 参阅 第 9 章 )。 





6.4.6 ”练习 使 用 参数 


面 对 如 此 之 多 的 参数 提供 和 接受 方式 ,很 容易 犯 早 。 下 面 来 看 一 个 综合 示例 。 首 先 来 定义 一 
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def 


def 


def 


story(**kwds): 
return 'Once upon a time, there was a' \ 
'{job} called {name}.'.format map(kwds) 


power(x, y, *others): 
if others: 

print('Received redundant parameters:', others) 
return pow(x, y) 


interval(start, stop=None, step=1): 
'Imitates range() for step > 0' 


if stop is None: # 如 果 没 有 给 参数 stop 指 定 值 ， 
start, stop = 0, start # 就 调整 参数 start 和 stop 的 值 

result = [] 

i = start # 从 start 开 始 往 上 数 

while i «< stop: # 数 到 stop 位 置 
result.append(i) # 将 当前 数 的 数 附 加 到 Tesult 未 尾 
i += step # 增加 到 当前 数 和 step (> 0) 之 和 


return result 





下 面 来 尝试 调用 这 些 函 数 。 


>>> 
Once 
>>> 
Once 
>>> 
>>> 
Once 
>>> 
>>> 
Once 
>>> 
8 
>>> 
9 
>>> 
8 
>>> 
>>> 
3125 
>>> 
Rece 
27 
>>> 
[0， 


print( toryCjob- ‘king', name="Gumby')) 

upon a time, there was a king called Gumby. 
print(story(name= 'Sir Robin', job="'brave knight')) 

upon a time, there was a brave knight called Sir Robin. 
params = {'job': 'language', 'name': 'Python'} 
print(story(**params)) 

upon a time, there was a language called Python. 

del params['job'] 

print(story(job="stroke of genius', **params)) 

upon a time, there was a stroke of genius called Python. 
power(2，3) 


a 


























power(3, 2) 
power (y=3, Xx=2) 


params = (5,) * 2 
power(*params) 


power(3, 3, 'Hello, world') 
ived redundant parameters: ('Hello, world',) 


interval(10) 

ba 25 35 4， 7 6， 5 8， 9] 
interval(1, 5) 

2，3，4] 

interval(3, 12, 4) 

7, 11] 

power(*interval(3, 7)) 

ived redundant parameters: (5, 6) 
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请 大 胆 尝试 使 用 这 些 函 数 以 及 自己 创建 的 本 数 ， 直 到 你 觉得 自己 掌握 了 所 有 相关 的 工作 
原理 。 


6.5 作用 域 


变量 到 底 是 什么 呢 ? 可 将 其 视 为 指向 值 的 名 称 。 因 此 ， 执 行 赋值 语句 x = 1 后 ， 名 称 x 指 向 值 
1。 这 几乎 与 使 用 字典 时 一 样 (字典 中 的 键 指向 值 )， 只 是 你 使 用 的 是 “看 不 见 ” 的 字典 。 实际 上 ， 
这 种 解释 已 经 离 真 相 不 还 。 有 一 个 名 为 vars 的 内 置 函数 ， 它 返回 这 个 不 可 见 的 字典 : 


>>>x=1 

>>> scope = vars() 
>>> scope['x'] 

>>> scope['x'] += 1 
>>> x 

冯 



































警告 ”一 般 而 言 ， 不 应 修改 vars 返 回 的 字典 ， 因 为 根据 Python 官方 文档 的 说 法 ,这样 做 的 结果 是 
不 确定 的 。 换 而 言 之 ， 可 能 得 不 到 你 想 要 的 结果 。 


这 种 “看 不 见 的 字典 ” 称 为 命名 空间 或 作用 域 。 那么 有 多 少 个 命名 空间 呢 ? 除 全 局 作用 域外 ， 
每 个 函数 调用 都 将 创建 一 个 。 


>>> def foo(): x = 42 





>>>x=1 


>>> foo() 
>>> x 


1 


在 这 里 ， 函 数 foo 修 改 ( 重新 关联 ) 了 变量 x， 但 当 你 最 终 查 看 时 ， 它 根本 没 变 。 这 是 因为 谓 
用 foo 时 创建 了 一 个 新 的 命名 空间 ， 供 foo 中 的 代码 块 使 用 。 赋 值 语句 x = 42 是 在 这 个 内 部 作用 域 
(局 部 命名 空间 ) 中 执行 的 ,不 影响 外 部 ( 全 局 ) 作用 域内 的 x。 在 函数 内 使 用 的 变量 称 为 局 部 变 
量 (与 之 相对 的 是 全 局 变量 )。 参数 类 似 于 局 部 变量 ,因此 参数 与 全 局 变量 同名 不 会 有 任何 问题 。 


>>> def output(x): print(x) 





























>>> X=1 


>>>y = 2 
>>> output(y) 
2 




















到 目前 为 止 一 切 顺 利 。 但 如 果 要 在 函数 中 访问 全 局 变量 呢 ? 如 果 只 是 想 读 取 这 种 变量 的 值 
(不 重新 关联 它 )， 通 常 不 会 有 任何 问题 。 


>>> def combine(parameter): print(parameter + external) 


>>> external = “beTTry 
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>>> combine('Shrub') 
Shrubberry 


警告 像 这 样 访问 全 局 变量 是 众多 bug 的 根源 。 务 必 慎 用 全 局 变量 。 


“遮盖 ”的 问题 


读 取 全 局 变量 的 值 通常 不 会 有 问题 ， 但 还 是 存在 出 现 问题 的 可 能 性 。 如 果 有 一 个 局 部 
变量 或 参数 与 你 要 访问 的 全 局 变量 同名 ， 就 无 法 直接 访问 全 局 变量 ， 因 为 它 被 局 部 交 量 庶 
住 了 。 

如 果 需 要 ， 可 使 用 函数 globals 来 访问 全 局 变量 。 这 个 函数 类 似 于 vars， 返 回 一 个 包含 全 
局 变量 的 字典 。 (1ocals 返 回 一 个 包含 局 部 变量 的 字典 。 ) 

例如 ， 在 前 面 的 示例 中 ， 如 果 有 一 个 名 为 parameter 的 全 局 变量 ,就 无 法 在 函数 combine 
中 访问 它 ， 因 为 有 一 个 与 之 同名 的 参数 。 然 而 ， 必 要 时 可 使 用 globals()['parameter'] 来 访 
问 它 。 

>>> def combine(parameter): 


print(parameter + globals()['parameter']) 


>>> parameter = 'berry’ 
>>> combine('Shrub') 
Shrubberry 


























重新 关联 全 局 变量 ( 使 其 指向 新 值 ) 是 另 一 码 事 。 在 函数 内 部 给 变量 赋值 时 ， 该 变量 默认 为 
局 部 变量 ， 除 非 你 明确 地 告诉 Python 它 是 全 局 变量 。 那 么 如 何 将 这 一 点 告知 Python 呢 ? 














>>>x=1 

>>> def change global(): 
global x 
X=x+1 


>>> change global() 
>>> x 
2 


小 菜 一 碟 ! 


作用 域 髓 套 
Python 示 数 可 以 说 套 ， 即 可 将 一 个 函数 放 在 另 一 个 函数 内 ， 如 下 所 示 : 


def foo(): 
def bar(): 
print("Hello, world!") 
bar() 


庶 套 通常 用 处 不 大 ， 但 有 一 个 很 突出 的 用 途 : 使 用 一 个 函数 来 创建 另 一 个 函数 。 这 意味 
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着 可 像 下 面 这 样 编写 函数 : 
def multiplier(factor): 
def multiplyByFactor(number): 
return number * factor 
return multiplyByFactor 
在 这 里 ， 一 个 函数 位 于 另 一 个 函数 中 ， 且 外 面 的 函数 返回 里 面 的 函数 。 也 就 是 返回 一 个 
函数 ， 而 不 是 调用 它 。 重 要 的 是 ， 返 回 的 函数 能 够 访问 其 定义 所 在 的 作用 域 。 换 而 言 之 ， 它 
携带 着 自己 所 在 的 环境 ( 和 相关 的 局 部 变量 ) ! 
每 当 外 部 函数 被 调用 时 ， 都 将 重新 定义 内 部 的 函数 ， 而 变量 factor 的 值 也 可 能 不 同 。 由 
于 Python 的 谋 套 作用 域 ， 可 在 内 部 函数 中 访问 这 个 来 自 外 部 局 部 作用 域 (multiplier ) 的 变 
量 ， 如 下 所 示 : 


>>> double = multiplier(2) 
>>> double(5) 

10 

>>> triple = multiplier(3) 
>>> triple(3) 

9 

>>> multiplier(5)(4) 

20 


像 multiplyByFactor 这 样 存储 其 所 在 作用 域 的 函数 称 为 闭 包 。 
通常 ， 不 能 给 外 部 作用 域内 的 变量 赋值 ， 但 如 果 一 定 要 这 样 做 ， 可 使 用 关键 字 nonlocal。 
这 个 关键 字 的 用 法 与 global 很 像 ， 让 你 能 够 给 外 部 作用 域 ( 非 全 局 作用 域 ) 内 的 变量 赋值 。 
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前 面 深入 介绍 了 如 何 创建 和 调用 函数 。 你 知道 ， 函 数 可 调用 其 他 函数 , 但 可 能 让 你 感到 惊讶 
的 是 ， 函 数 还 可 调用 自己 。 
如 果 你 以 前 没有 遇 到 这 种 情况 , 可 能 想 知道 递归 是 什么 意思 。 简单 地 说 , 递归 意味 着 引用 ( 这 
里 是 调用 ) 自身 。 下 面 是 一 个 常见 的 递归 定义 〈 但 必须 承认 ， 这 种 定义 很 思春 ): 

递归 [名 词 ]: 参见 “递归 ”。 

如 果 你 在 网 上 搜索 “递归 ”， 将 看 到 类 似 的 定义 。 

递归 式 定 义 ( 包 括 递归 式 函 数 定义 ) 引用 了 当前 定义 的 术语 。 递 归 可 能 难以 理解 ， 也 可 能 非 
常 简单 ， 这 取决 于 你 对 它 的 熟悉 程度 。 要 更 深入 地 认识 递归 ， 可 能 应 该 参阅 优秀 的 计算 机 教材 ， 
但 尝试 Python 解 释 器 也 大 有 神 益 。 

一 般 而 言 ， 你 不 想 要 递归 式 定 义 〈 像 前 面 的 “递归 ”那样 )， 因 为 这 毫 无 意义 : 你 查找 “ 递 
归 ”， 它 告诉 你 去 查找 “递归 ”， 如 此 这 般 没 完 没 了 。 下面 是 一 个 递归 式 函 数 定义 : 


def recursion(): 
return recursion() 
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这 个 定义 显然 什么 都 没有 做 , 与 刚才 的 “递归 ”定义 一 样 傻 。 如 果 你 运行 它 , 结果 将 如 何 呢 ? 
你 将 发 现 运行 一 段 时 间 后 ， 这 个 程序 崩溃 了 【引发 异常 ) 从 理论 上 说 ， 这 个 程序 将 不 断 运行 下 
去 , 但 每 次 调用 函数 时 ， 都 将 消耗 一 些 内 存 。 因 此 函数 调用 次 数 达 到 一 定 的 程度 ( 且 之 前 的 函数 
调用 未 返回 ) 后 , 将 耗 尽 所 有 的 内 存 空间 ， 导 致 程序 终止 并 显示 错误 消息 “超过 最 大 递归 深度 ”。 

这 个 函数 中 的 递归 称 为 无 穷 递归 ( 就 像 以 while True 打 头目 不 包含 break 和 return 语 句 的 循环 
被 称 为 无 限 循环 一 样 )， 因 为 它 从 理论 上 说 永远 不 会 结束 。 你 想 要 的 是 能 对 你 有 所 帮助 的 递归 函 
数 ， 这 样 的 递归 函数 通常 包含 下 面 两 部 分 。 
口 基线 条 件 ( 针对 最 小 的 问题 ) 满足 这 种 条 件 时 函数 将 直接 返回 一 个 值 。 
口 递归 条 件 : 包含 一 个 或 多 个 调用 ， 这 些 调 用 虽 在 解决 问题 的 一 部 分 。 

这 里 的 关键 是 , 通过 将 问题 分 解 为 较 小 的 部 分 ， 可 避免 递归 没完 没 了 ， 因 为 问题 终 将 被 分 解 
成 基线 条 件 可 以 解决 的 最 小 问题 。 

那么 如 何 让 函数 调用 自身 呢 ? 这 没有 看 起 来 那么 难 懂 。 前 面 说 过 ,每 次 调用 函数 时 ,都 将 为 
此 创建 一 个 新 的 命名 空间 。 这 意味 着 函数 调用 自身 时 ， 是 两 个 不 同 的 函数 [ 更 准确 地 说 ,是 不 同 
版 本 ( 即 命名 空间 不 同 ) 的 同一 个 函数 ] 在 交流 。 你 可 将 此 视 为 两 个 属于 相同 物种 的 动物 在 彼此 


交流 。 
6.6.1 两 个 经 典 案例 : 阶乘 和 过 


本 节 探讨 两 个 经 典 的 递归 函数 。 首先 , 假设 你 要 计算 数字 n 的 阶乘 。n 的 阶乘 为 n x (n 一 1) x (n 一 
2) x … x 1， 在 数学 领域 的 用 途 非常 广泛 。 例 如 ， 计 算 将 n 个 人 排 成 一 队 有 多 少 种 方式 。 如 何 计算 
阶乘 呢 ? 可 使 用 循环 。 


def factorial(n): 
result = n 
for i in range(1, n): 
result *= ji 
return result 


这 种 实现 可 行 ， 而 且 直 稚 了 当 。 大 致 而 言 ， 它 是 这 样 做 的 ， 首先 将 result 设 置 为 np， 再 将 其 
依次 乘 以 1 到 n- 1 的 每 个 数字 , 最 后 返回 result。 但 如 果 你 愿意 ,可 采取 不 同 的 做 法 。 关 键 在 于 阶 
乘 的 数学 定义 ， 可 表述 如 下 。 

口 1 的 阶乘 为 1。 

D 对 于 大 于 1 的 数字 n， 其 阶乘 为 4 - 1 的 阶乘 再 乘 以 n。 

如 你 所 见 ， 这 个 定义 与 本 节 开 头 的 定义 完全 等 价 。 

下 面 来 考虑 如 何 使 用 函数 来 实现 这 个 定义 。 理 解 这 个 定义 后 ， 实 现 起 来 其 实 非常 简单 。 
def factorial(n) : 






































































































































了 二 A 
return 1 
else: 


return n * factorial(n - 1) 
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这 是 前 述 定义 的 直接 实现 ， 只 是 别 忘 了 函数 调用 factorial(n) 和 factorial(n - 1) 是 不 同 的 
实体 。 
再 来 看 一 个 示例 。 假 设 你 要 计算 客 ， 就 像 内 置 函数 pow 和 运算 符 ** 所 做 的 那样 。 要 定义 一 
个 数字 的 整数 次 究 ， 有 多 种 方式 ,但 先 来 看 一 个 简单 的 定义 : power(x, n) (x 的 n 次 需 ) 是 将 数 
字 x 自 乘 n - 1 次 的 结果 ， 即 将 n 个 x 相 乘 的 结果 。 换 而 言 之 ，power(2，3) 是 2 自 乘 两 次 的 结果 ， 
即 2x2x2=8。 
这 实现 起 来 很 容易 。 
def power(x, nN): 
result = 1 
for i in range(n): 


result *= x 
return result 


这 是 一 个 非常 简单 的 小 型 函数 ， 但 也 可 将 定义 修改 成 递归 式 的 。 
口 对 于 任何 数字 x，power(x，0) 都 为 1。 
口 n>0 时 ，power(x，m) 为 power(x，n-1) 与 x 的 乘积 。 
如 你 所 见 ， 这 种 定义 提供 的 结果 与 更 简单 的 迭代 定义 完全 相同 。 理 解 定义 是 最 难 的 ， 而 实现 
起 来 很 容易 。 
def power(x, nN): 
了 相亲 
return 1 


else: 
return x * power(x, n - 1) 


我 再 次 将 定义 从 较为 正规 的 文字 描述 转换 成 了 编程 语言 (Python )。 



















































































提示 。 如 果 函 数 或 算法 复杂 难 懂 , 在 实现 前 用 自己 的 话 进 行 明确 的 定义 将 大 有 神 益 。 以 这 种 “ 准 
编程 语言 ”编写 的 程序 通常 称 为 伪 代 码 。 


那么 使 用 递归 有 何 意 义 呢 ? 难道 不 能 转 而 使 用 循环 吗 ? 答案 是 肯定 的 ， 而 且 在 大 多 数 情 况 
下 ,使 用 循环 的 效率 可 能 更 高 。 然 而 , 在 很 多 情况 下 , 使 用 递归 的 可 读 性 更 高 , 且 有 了 时 要 高 得 多 ， 
在 你 理解 了 函数 的 递归 式 定义 时 尤其 如 此 。 另 外 ,虽然 你 完全 能 够 避免 编写 递归 函数 , 但 作为 程 
序 员 ， 你 必须 能 够 读 懂 其 他 人 编写 的 递归 算法 和 函数 。 


6.6.2” 另 一 个 经 典 案例 : 二 分 查找 


下 面 来 看 看 最 后 一 个 递归 示例 一 一 二 分 查找 算法 。 

你 可 能 熟悉 猜 心 游戏 。 这 个 游戏 要 求 猜 对 对 方 心 里 想 的 是 什么 , 且 整 个 猜测 过 程 提 出 的 “是 
否 ” 问 题 不 能 超过 20 个 。 为 充分 利用 每 个 问题 ， 你 力图 让 每 个 问题 的 答案 将 可 能 的 范围 减 半 。 例 
如 ， 如 果 你 知道 对 方 心里 想 的 是 一 个 人 ， 可 能 问 :“ 你 心里 想 的 是 个 女人 吗 ? ”除非 你 有 很 强 的 
第 六 感 ， 不 然 不 会 一 开始 就 问 :“ 你 心里 想 的 是 John Cleese 吗 ? ”对 喜欢 数字 的 人 来 说 ， 这 个 游 
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戏 的 另 一 个 版 本 是 猜 数 。 例 如 ， 对 方 心 里 想 着 一 个 1 ~ 100 的 数字 ， 你 必须 猜 出 是 哪个 。 当 然 ， 猜 
100 次 肯定 猜 对 ， 但 最 少 需要 猜 多 少 次 呢 ? 

实际 上 只 需 猜 7 次 。 首 先 问 :“ 这 个 数字 大 于 50 吗 ? ”如 果 答 案 是 肯定 的 ， 再 问 :“ 这 个 数字 
大 于 75 吗 ? ”不 断 将 可 能 的 区 间 减 半 ， 直 到 猜 对 为 止 。 你 无 需 过 多 地 思考 就 能 成 功 。 

这 种 策略 适用 于 众多 其 他 不 同 的 情形 。 一 个 常见 的 问题 是 : 指定 的 数字 是 否 包 含 在 已 排序 的 
序列 中 ?如 果 包 含 ， 在 什么 位 置 ? 为 解决 这 个 问题 ， 可 采取 同样 的 策略 :“ 这 个 数字 是 否 在 序列 
中 央 的 右边 ?” ”如果 管 案 是 否定 的 ， 青 问 :“ 它 是 否 在 序列 的 第 二 个 四 分 之 一 区 间 内 ( 左 半 部 分 
的 右边 ) ? ” 依 此 类 推 。 明 确 数 字 所 处 区 间 的 上 限 和 下 限 ， 并 且 每 一 个 问题 都 将 区 间 分 成 两 半 。 

这 里 的 关键 是 ,这 种 算法 自然 而 然 地 引出 了 递归 式 定 义 和 实 现 。 先 来 回顾 一 下 定义 ， 确 保 你 
知道 该 如 何 做 。 
口 如 果 上 限 和 下 限 相同 ， 就 说 明 它 们 都 指向 数字 所 在 的 位 置 ， 因 此 将 这 个 数字 返回 。 

口 否则 ， 找 出 区 间 的 中 间 位 置 (上 限 和 下 限 的 平均 值 )， 青 确定 数字 在 左 半 部 分 还 是 右 半 部 
分 。 然 后 在 继续 在 数字 所 在 的 那 部 分 中 查找 。 

在 这 个 递归 案例 中 , 关键 在 于 元 素 是 经 过 排序 的 。 找 出 中 间 的 元 素 后 ， 只 需 将 其 与 要 查找 的 
数字 进行 比较 即 可 。 如 果 要 查找 的 数字 更 大 ,肯定 在 右边 ; 如 果 更 小 ， 它 必然 在 左边 。 递 归 部 分 
为 “继续 在 数字 所 在 的 那 部 分 中 查找 ”"， 因 为 查找 方式 与 定义 所 指定 的 完全 相同 。( 请 注意 ,这 种 
查找 算法 返回 数字 应 该 在 的 位 置 。 如 果 这 个 数字 不 在 序列 中 , 那么 这 个 位 置 上 的 自然 是 男 一 个 数 
字 。) 

现在 可 以 实现 二 分 查找 了 。 


def search(sequence, number, lower, upper): 
if lower == upper: 
assert number == sequence[upper] 
return upper 
else: 
middle = (lower + upper) // 2 
if number > sequence[middle]: 
return search(sequence, number, middle + 1, upper) 
else: 
return search(sequence, number, lower, middle) 


这 些 代 码 所 做 的 与 定义 完全 一 致 :如果 lower == upper， 就 返回 upper， 即 上 限 。 请 注意 ， 你 
假设 ( 断言 ) 找到 的 确实 是 要 找 的 数字 ( number == sequence[upper] )。 如 果 还 未 达到 基线 条 件 ， 
就 找 出 中 间 位 置 ， 确 定数 字 在 它 左边 还 是 右边 ， 青 使 用 新 的 上 限 和 下 限 递 归 地 调用 search。 为 方 
便 调 用 ,还 可 将 上 限 和 下 限 设置 为 可 选 的。 为 此 ， 只 需 给 参数 lower 和 upper 指 定 默认 值 ， 并 在 函 
数 开头 添加 如 下 条 件 语句 : 


def search(sequence, number, lower=0, upper=None): 
if upper is None: upper = len(sequence) - 1 



























































































































































现在 ， 如 果 你 没有 提供 上 限 和 下 限 ， 它 们 将 分 别 设置 为 序列 的 第 一 个 位 置 和 最 后 一 个 位 置 。 
下 面 来 看 看 这 是 否 可 行 。 
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>>> seq = [34，67，8，123，4，100，95] 
>>> seq.sort() 

>>> seq 

[ds 8 34, G67» gs 00 423] 

>>> search(seq, 34) 


>>> search(seq, 100) 








然而 ， 为 何 要 如 此 麻烦 呢 ? 首先 ， 你 可 使 用 列表 方法 index 来 查找 。 其 次 ， 即 便 你 要 自己 实 
现 这 种 功能 ， 也 可 创建 一 个 循环 ， 让 它 从 序列 开头 开始 迭代 ， 直 至 找到 指定 的 数字 。 

确实 ， 使 用 index 挺 好 ， 但 使 用 简单 循环 可 能 效率 低下 。 前 面 说 过 ， 要 在 100 个 数字 中 找到 指 
定 的 数字 ， 只 需 问 7 次 ; 但 使 用 循环 时 ,在 最 糟 的 情况 下 需要 问 100 次 。 你 可 能 觉得 “没什么 大 不 
了 的 ”。 但 如 果 列 表 包含 100 000 000 000 000 000 000 000 000 000 000 000 个 元 素 ( 对 Python 列表 来 
说 ， 这 样 的 长 度 可 能 不 现实 )， 使 用 循环 也 将 需要 问 这 么 多 次 ， 情 况 开始 变 得 “很 大 ”了 。 然 而 ， 


如 果 使 用 二 分 查找 ， 只 需 问 117 次 。 
效率 非常 高 吧 ?? 6 


提示 ”实际 上 ， 模 块 bisect 提 供 了 标准 的 二 分 查找 实现 。 


函数 式 编程 


至 此 ,你 可 能 习惯 了 像 使 用 其 他 对 象 (字符 事 、 数 、 序 列 等 ) 一 样 使 用 函数 : 将 其 赋 
给 变量 ， 将 其 作为 参数 进行 传递 ， 以 及 从 函数 返回 它们 。 在 有 些 语言 (如 scheme 和 Lisp ) 
中 ， 几 乎 所 有 的 任务 都 是 以 这 种 方式 使 用 函数 来 完成 的 。 在 Python 中 ， 通 常 不 会 如 此 傈 
重 函 数 (而 是 创建 自 定义 对 象 ， 这 将 在 下 一 章 详细 介绍 )， 但 完全 可 以 这 样 做 。 

Python 提 供 了 一 些 有 助 于 进行 这 种 函数 式 编程 的 函数 : map、filter 和 Teduce。 在 较 新 的 
Python 版 本 中 ， 函 数 map 和 filter 的 用 途 并 不 大 ， 应 该 使 用 列表 推导 来 替代 它们 。 你 可 使 用 map 
将 序列 的 所 有 元 素 传递 给 函数 。 

>>> list(map(str, range(10)))# 与 [str(i) for i in range(10)] 等 价 

人 

你 可 使 用 filter 根 据 布 尔 函 数 的 返回 值 来 对 元 素 进 行 过 滤 。 


>>> def func(x): 
return x.isalnum() 
























































pe seq 或 [ "foo"， "x41", "ES "六 六 ] 
>>> list(filter(func, seq)) 
[00 414")] 























中 事实 上 ， 在 可 观察 到 的 宇宙 中 ， 包 含 的 粒子 数 大 约 为 10” 个 。 要 找 出 其 中 的 一 个 粒子 ， 只 需 问 大 约 290 次 ! 
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就 这 个 示例 而 言 ， 如 果 转 而 使 用 列表 推导 ， 就 无 需 创建 前 述 自 定义 函数 。 

>>> [x for x in seq if x.isalnum()] 

['foo', 'x41'] 

实际 上 ，Python 提 供 了 一 种 名 为 lambda 表 达 式 "的 功能 ， 让 你 能 够 创建 内 许 的 简单 函数 
(主要 供 map、filter 和 Teduce 使 用 ) 。 


>>> filter(lambda x: x.isalnum(), seq) 

['foo', 'x41'] 

然而 ,使 用 列表 推导 的 可 读 性 不 是 更 高 吗 ? 

要 使 用 列表 推导 来 替换 函数 reduce 不 那么 容易 ， 而 这 个 函数 提供 的 功能 即便 能 用 到 ， 也 
用 得 不 多 。 它 使 用 指定 的 函数 将 序列 的 前 两 个 元 素 合 二 为 一 ， 再 将 结果 与 第 3 个 元 素 合 二 为 
一 ， 依 此 类 推 ， 直 到 处 理 完整 个 序列 并 得 到 一 个 结果 。 例 如 ， 如 果 你 要 将 序列 中 的 所 有 数 相 
加 ， 可 结合 使 用 reduce 和 lambda x, y: x+y2。 


>>> numbers = [72, 101, 108, 108, 111, 44, 32, 119, 111, 114, 108, 100, 33] 
>>> from functools import reduce 

>>> reduce(lambda x, y: x + y, numbers) 

1161 


当然 ， 就 这 个 示例 而 言 ， 还 不 如 使 用 内 置 函 数 sum。 





6.7 小 结 


本 章 介绍 了 抽象 的 基本 知识 以 及 函数 。 

口 抽象 : 抽象 是 隐藏 不 必要 细节 的 艺术 。 通 过 定义 处 理 细节 的 函数 ， 可 让 程序 更 抽象 。 

口 函数 定义 : 函数 是 使 用 def 语 句 定义 的 。 函 数 由 语句 块 组 成 ， 它 们 从 外 部 接受 值 (参数 )， 

并 可 能 返回 一 个 或 多 个 值 (计算 结果 )。 

口 参数 : 函数 通过 参数 ( 调用 函数 时 被 设置 的 变量 ) 接收 所 需 的 信息 。 在 Python 中 ,参数 有 

两 类 : 位 置 参数 和 关键 字 参 数 。 通 过 给 参数 指定 默认 值 ， 可 使 其 变 成 可 选 的 。 

口 作用 域 : 变量 存储 在 作用 域 (也 叫 命名 空间 ) 中 。 在 Python 中 ， 作 用 域 分 两 大 类 : 全 局 作 

用 域 和 局 部 作用 域 。 作 用 域 可 以 藤 套 。 

口 递归 : 函数 可 调用 自身 ， 这 称 为 递归 。 可 使 用 递归 完成 的 任何 任务 都 可 使 用 循环 来 完成 ， 

但 有 时 使 用 递归 函数 的 可 读 性 更 高 。 

口 函数 式 编程 : Python 提供 了 一 些 函 数 式 编程 工具 ， 其 中 包括 lambda 表 达 式 以 及 因数 map、 
filter 和 reduce。 








































































































Q@ lambda 来 源 于 希腊 字母 ， 在 数学 中 用 于 表示 匿名 函数 。 
@ 实际 上 ， 可 不 使 用 这 个 lambda 函 数 ， 而 是 导入 模块 operator 中 的 函数 add ( 这 个 模块 包含 对 应 于 每 个 内 置 运算 符 的 
函数 )。 与 使 用 自 定义 函数 相 比 ， 使 用 模块 operator 中 的 函数 总 是 效率 更 高 。 
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6.7.1 本 章 介 绍 的 新 函数 
函数 描述 
nap(func, seq[, seq, ...]) 对 序列 中 的 所 有 元 素 执行 函数 
filter(func，seq) 返回 一 个 列表 ， 其 中 包含 对 其 执行 函数 时 结果 为 真 的 所 有 元 素 


Teduce(func，seq[，initial]) 
sum(seq) 


apply(func[, args[, kwargs]]) 


6.7.2 ”预告 





等 价 于 func(func(func(seq[0]，seq[1])，seq[2])，.….) 


返回 





调 拆 


seq 中 所 有 元 素 的 和 
函数 (还 提供 要 传递 给 函数 的 参数 ) 














下 一 章 将 介绍 面向 对 象 编程 ， 让 你 能 够 进一步 提高 程序 的 抽象 程度 











定义 类 型 ( 类 )， 并 将 其 与 Python 提 供 的 类 型 ( 如 字符 串 、 列 表 和 字典 











够 编写 出 质量 更 高 的 程序 。 阅 读 完 下 一 章 后 ， 你 将 能 够 编写 出 大 型 程序 


迷 拓 方向 。 











。 你 将 学 习 如 何 创建 自 
) 一 起 使 用 ， 这 让 你 能 


， 同 时 不 会 在 源 代码 中 6 
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在 前 几 章 ， 你 学 习 了 Python 内 置 的 主要 对 象 类 型 ( 数 、 字 符 串 、 列 表 、 元 组 和 字典 )， 大 致 
了 解 了 众多 的 内 置 函 数 和 标准 库 , 还 创建 了 自 定义 函数 。 不 过 有 一 点 还 没有 学 习 ， 那 就 是 创建 自 
定义 对 象 ， 而 这 正 是 本 章 的 主题 。 

你 可 能 会 问 , 自 定义 对 象 到 底 多 有 用 呢 ? 创建 自 定义 对 象 好 像 很 酷 , 但 能 使 用 它们 来 做 什么 
呢 ? 你 有 字典 、 序 列 、 数 和 字符 串 可 用 , 难道 仅 使 用 它们 不 能 创建 出 满足 需求 的 函数 吗 ? 当然 能 ， 
但 创建 自 定义 对 象 ( 尤其 是 对 象 类 型 或 类 ) 是 一 个 Python 核心 概念 。 事 实 上 , 这 个 概念 非常 重要 ， 
以 至 于 Python 与 Smalltalk 、C++ 、Java 等 众多 语言 一 样 ， 被 视 为 一 种 面向 对 象 的 语言 。 在 本 章 中 ， 
你 将 学 习 如 何 创建 对 象 ,还 将 学 习 多 态 、 封 装 、 方法、 属性 、 超 类 和 继承 。 需要 学 习 的 内 容 很 多 ， 
现在 就 开始 吧 。 





























注意 ”如果 你 熟 厅 面向 对 象 编程 这 一 概念 ， 很 可 能 知道 构造 函数 。 本 章 不 讨论 构造 函数 ， 相 关 
的 全 面 讨论 请 参阅 第 9 章 。 


7.1 对象 魔法 


在 面向 对 象 编程 中 ,术语 对 象 大 致意 味 着 一 系列 数据 ( 属性 ) 以 及 一 套 访问 和 操作 这 些 数 据 
的 方法 。 使 用 对 象 而 非 全 局 变量 和 函数 的 原因 有 多 个 ， 下 面 列 出 了 使 用 对 象 的 最 重要 的 好 处 。 
口 多 态 : 可 对 不 同类 型 的 对 象 执行 相同 的 操作 ， 而 这 些 操作 就 像 “被 施 了 魔法 ”一 样 能 够 
正常 运行 。 
口 封装 : 对 外 部 隐藏 有 关 对 象 工作 原理 的 细节 。 
口 继承 : 可 基于 通用 类 创建 出 专用 类 。 

在 很 多 介绍 面向 对 象 编程 的 资料 中 , 都 以 不 同 于 这 里 的 顺序 介绍 上 述 概 念 。 一 般 先 介绍 封装 
和 继承 ， 再 使 用 这 些 概念 来 模拟 现实 世界 的 对 象 。 这 没什么 不 好 , 但 在 我 看 来 ， 多 态 才 是 面向 对 
象 编程 最 有 趣 的 特性 。 根 据 我 的 经 验 , 这 也 是 让 大 多 数 人 感到 迷惑 的 特性 。 有 鉴于 此 , 我 将 首先 
介绍 多 态 ， 并 力图 证 明 仅 赁 这 个 概念 就 足以 让 你 喜欢 上 面向 对 象 编程 。 
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7.1.1 多 态 


术语 多 态 (polymorphism ) 源 自 希 腊 语 ， 意 思 是 “有 多 种 形态 ”"。 这 大 致意 味 着 即便 你 不 知 
道 变 量 指向 的 是 哪 种 对 象 , 也 能 够 对 其 执行 操作 , 且 操 作 的 行为 将 随 对 象 所 属 的 类 型 (类 ) 而 异 。 
例如 , 假设 你 要 为 一 个 销售 食品 的 电子 商务 网 站 创建 在 线 支 付 系 统 , 程序 将 接收 来 自 系统 另 一 部 
分 (或 之 后 设计 的 类 似 系统 ) 的 购物 车 。 因 此 你 只 需 计 算 总 价 并 从 信用 卡 扣 除 费用 即 可 。 

你 首先 想到 的 可 能 是 ,指定 程序 收 到 商品 时 必须 如 何 表 示 。 例如 ,你 可 能 要 求 用 元 组 表示 收 
到 的 商品 ， 如 下 所 示 : 


('SPAM' , 2.50) 


如 果 你 只 需要 描述 性 标签 和 价格 , 这 样 的 表示 很 好 , 但 不 太 灵 活 。 假设 该 网 站 新 增 了 拍卖 服 
务 ， 即 不 断 降低 商品 的 价格 ,直到 有 人 购买 为 止 。 在 这 种 情况 下 ， 如果 能 够 允许 用 户 像 下 面 这 样 
做 就 好 了 : 将 商品 放 入 购物 车 并 进入 结算 页 面 (你 所 开发 系统 的 一 部 分 )， 等 到 价格 合适 时 再 单 
击 “ 支 付 ”按钮 。 

然而 , 使 用 简单 的 元 组 表示 商品 无 法 做 到 这 一 点 。 要 做 到 这 一 点 , 表示 商品 的 对 象 必须 在 你 
编写 的 代码 询问 价格 时 通过 网 络 检查 其 当前 价格 , 也 就 是 说 不 能 像 在 元 组 中 那样 固定 价格 。 要 解 
决 这 个 问题 ， 可 创建 一 个 函数 。 

# 不 要 像 下 面 这 样 做 : 

def get price(object): 

if isinstance(object, tuple): 
return object[1] 


else: 
return magic network method(object) 
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注意 这 里 使 用 isinstance 来 执行 类 型 /类 检查 旨 在 说 明 : 使 用 类 型 检查 通常 是 饼 主 意 ， 应 尽 可 
能 避免 。 函 数 isinstance 将 在 7.2.7 节 介绍 。 























前 面 的 代码 使 用 函数 isinstance 来 检查 object 是 否 是 元 组 。 如 果 是 ， 就 返回 其 第 二 个 元 素 ， 
否则 调用 一 个 神奇 的 网 络 方法 。 

如 果 网 络 方法 已 就 绪 ， 问 题 就 暂时 解决 了 。 但 这 种 解决 方案 还 是 不 太 灵活 。 如 果 有 位 程序 员 
很 聪明 ， 决 定 用 十 六 进 制 的 字符 串 表 示 价 格 ， 并 将 其 存储 在 字典 的 'price' 键 下 呢 ? 没 问题 ， 你 
只 需 更 新 相应 的 函数 。 


# 不 要 像 下 面 这 样 做 : 
def get price(object): 
if isinstance(object, tuple): 
return object[1] 
elif isinstance(object, dict): 
return int(object['price']) 
else: 
return magic network method(object) 
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你 确定 现在 考虑 到 了 所 有 的 可 能 性 吗 ? 假设 有 人 决定 添加 一 种 新 字典 , 并 在 其 中 将 价格 存储 
在 另 一 个 键 下 ， 你 该 如 何 办 呢 ? 当然 ， 可 再 次 更 新 get_price， 但 这 种 应 对 之 策 能 在 多 长 时 间 内 
有 效 呢 ? 每 当 有 人 以 不 同 的 方式 实现 对 象 时 , 你 都 需要 重新 实现 你 的 模块 。 如 果 你 将 该 模块 卖 给 
了 别人 , 转 而 从 事 其 他 项 目的 开发 ,客户 该 如 何 办 呢 ? 显然 ,这 种 实现 不 同行 为 的 方式 既 不 灵活 
也 不 切实 际 。 

那么 该 如 何 做 呢 ? 让 对 象 自 己 去 处 理 这 种 操作 。 这 好 像 没 什么 大 不 了 ,但 仔细 想 想 将 发 现 ， 
这 样 事情 将 简单 得 多 : 每 种 新 对 象 都 能 够 获取 或 计算 其 价格 并 返回 结果 , 而 你 只 需 向 它们 询问 价 
格 即 可 。 这 正 是 多 态 〈 从 某 种 程度 上 说 还 有 封装 ) 的 用 武之 地 。 


7.1.2 多 态 和 方法 


你 收 到 一 个 对 象 ， 却 根本 不 知道 它 是 如 何 实现 的 一 一 它 可 能 是 众多 “形态 ”中 的 任何 一 种 。 
你 只 知道 可 以 询问 其 价格 ， 但 这 就 够 了 。 至 于 询问 价格 的 方式 ， 你 应 该 很 熟悉 。 


>>> object.get price() 
205 


像 这 样 与 对 象 属性 相关 联 的 函数 称 为 方法 。 你 在 本 书 前 面 见 过 这 样 的 函数 : 字符 串 、 列 表 和 
字典 的 方法 。 多 态 你 其 实 也 见 过 。 


>>> 'abc' .count('a') 

本 

>>> [1, 2,'a'].count('a') 
1 


如 果 有 一 个 变量 x， 你 无 需 知道 它 是 字符 串 还 是 列表 就 能 调用 方法 count: 只 要 你 向 这 个 方法 
提供 一 个 字符 作为 参数 ， 它 就 能 正常 运行 。 

下 面 来 做 个 实验 。 标 准 库 模 块 Tzandom 包 含 一 个 名 为 choice 的 函数 ， 它 从 序列 中 随机 选择 一 个 
元 素 。 下 面 使 用 这 个 函数 给 变量 提供 一 个 值 。 


>>> from Tandom import choice 
>>> x = choice(['Hello, world!', [1, 2, 'e', 'e', 4]]) 


执行 这 些 代码 后 ，x 可 能 包含 字符 串 'Hello0，world"， 也 可 能 包含 列表 [1，2，'e' 
具体 是 哪 一 个 ， 你 不 知道 也 不 关心 。 你 只 关心 x 包含 多 少 个 'e' ， 而 不 管 x 是 字符 串 还 
能 找到 答案 。 为 找到 答案 ， 可 像 前 面 那样 调用 count。 


>>> x.count('e') 
2 


从 上 述 结果 看 ,x 包含 的 应 该 是 列表 。 但 关键 在 于 你 无 需 执 行 相关 的 检查 ， 只 要 x 有 一 个 名 为 
count 的 方法 ， 它 将 单个 字符 作为 参数 并 返回 一 个 整数 就 行 。 如 果 有 人 创建 了 包含 这 个 方法 的 对 
象 ， 你 也 可 以 像 使 用 字符 串 和 列表 一 样 使 用 这 种 对 象 。 

多 态 形 式 多 样 

每 当 无 需 知道 对 象 是 什么 样 的 就 能 对 其 执行 操作 时 , 都 是 多 态 在 起 作用 。 这 不 仅仅 适用 于 方 

























































































'e', 4]。 
列表 你 都 
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法 ， 我 们 还 通过 内 置 运算 符 和 函数 大 量 使 用 了 多 态 。 请 看 下 面 的 代码 : 

>>> 1+2 

3 

>>> 'Fish' + 'license’ 

'Fishlicense" 

上 述 代 码 表明 ， 加 法 运算 符 (+ ) 既 可 用 于 数 (这 里 是 整数 )， 也 可 用 于 字符 串 (以 及 其 他 类 
型 的 序列 )。 为 证 明 这 一 点 , 假设 你 要 创建 一 个 将 两 个 对 象 相 加 的 add 函 数 ， 可 像 下 面 这 样 定 义 它 
(这 与 模块 operator 中 的 函数 add 等 价 ， 但 效率 更 低 ): 

def add(x, y): 

return x+y 
可 使 用 众多 不 同类 型 的 参数 来 调用 这 个 函数 。 


>>> add(1, 2) 

3 

>>> add('Fish', 'license') 
'Fishlicense" 


这 也 许 有 点 傻 ， 但 重点 在 于 参数 可 以 是 任何 支持 加 法 的 对 象 *"。 如 果 要 编写 一 个 函数 ， 通 过 
打印 一 条 消息 来 指出 对 象 的 长 度 , 可 以 像 下 面 这 样 做 ( 它 对 参数 的 唯一 要 求 是 有 长 度 ， 可 对 其 执 
行 函 数 len )。 


def length message(x): 
print("The length of", repr(x), "is", len(x)) 


如 你 所 见 ， 这 个 函数 还 使 用 了 repr。repr 是 多 态 的 集大成 者 之 一 ， 可 用 于 任何 对 象 ， 下 面 就 
来 看 看 : 


>>> length message('Fnord') 
The length of 'Fnord' is 5 
>>> length message([1, 2, 3]) 
The length of [1, 2, 3] is 3 


很 多 函数 和 运算 符 都 是 多 态 的 ,你 编写 的 大 多 数 函 数 也 可 能 如 此 ， 即 便 你 不 是 有 意 为 之 。 
当 你 使 用 多 态 的 函数 和 运算 符 时 ， 多 态 都 将 发 挥 作用 。 事 实 上 ， 要 破坏 多 态 ， 唯 一 的 办 法 是 使 用 
诸如 type、issubclass 等 函数 显 式 地 执行 类 型 检查 ， 但 你 应 尽 可 能 避免 以 这 种 方式 破坏 多 态 。 重 
要 的 是 ， 对 象 按 你 希望 的 那样 行事 ， 而 非 它 是 否 是 正确 的 类 型 (类 )。 然 而 ， 不 要 使 用 类 型 检查 
的 禁令 已 不 像 以 前 那么 严格 。 引 入 本 章 后 面 将 讨论 的 抽象 基 类 和 模块 abc 后 ， 孙 数 ijssubclass 本 
身 也 是 多 态 的 了 ! 

























































































注意 ”这 里 讨论 的 多 态 形式 是 Python 编 程 方式 的 核心 ， 有 时 称 为 鸭子 类 型 。 这 个 术语 源 自如 下 
说 法 :“ 如 果 走 起 来 像 蝎子 ， 叫 起 来 像 鸭 子 ， 那 么 它 就 是 鸭子 。” 有 关 鸭 子 类 型 的 详细 信 
息 ， 请 参阅 http:/en.wikipedia.org/wiki/Duck typing。 

















Qa 请 注意 ， 这 些 对 象 必须 支持 它们 之 间 的 加 法 ， 因 此 调用 add(1，'license' ) 不 可 行 。 
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7.1.3 ”封装 





封装 (encapsulation ) 指 的 是 向 外 部 隐藏 不 必要 的 细节 。 这 上 听 起 来 有 点 像 多 态 ( 无 需 知 道 对 
象 的 内 部 细节 就 可 使 用 它 )。 这 两 个 概念 很 像 ， 因 为 它们 都 是 抽象 的 原则 。 它 们 都 像 函 数 一 样 ， 
可 帮助 你 处 理 程序 的 组 成 部 分 ， 让 你 无 需 关心 不 必要 的 细节 。 

但 封装 不 同 于 多 态 。 多 态 让 你 无 需 知道 对 象 所 属 的 类 ( 对 象 的 类 型 ) 就 能 调用 其 方法 ， 而 封 
装 让 你 无 需 知道 对 象 的 构造 就 能 使 用 它 。 听 起 来 还 是 有 点 像 ? 下 面 来 看 一 个 使 用 了 多 态 但 没有 使 
用 封装 的 示例 。 假 设 你 有 一 个 名 为 0pen0bject 的 类 ( 如 何 创建 类 将 在 本 章 后 面 介绍 )。 


>>> 0 = 0pen0bject() # 对 象 就 是 这 样 创建 的 
>>> o.set name('Sir Lancelot') 

>>> 0.get_ name() 

‘Sir Lancelot 
























































你 (通过 像 调 用 函数 一 样 调用 类 ) 创建 一 个 对 象 ， 并 将 其 关联 到 变量 o， 然 后 就 可 以 使 用 方 
法 set_name 和 get_name 了 (假设 0pen0bject 支 持 这 些 方法 )。 一切 都 看 起 来 完美 无 缺 。 然 而 ， 如 果 
o 将 其 名 称 存储 在 全 局 变量 global_name 中 呢 ? 


>>> global name 
‘Sir Lancelot" 














这 意味 着 使 用 0pen0bject 类 的 实例 ( 对象 ) 时, 你 需要 考虑 global_name 的 内 容 。 事实 上 ， 必 
须 确保 无 人 能 修改 它 。 


>>> global name = 'Sir Gumby 

>>> 0.get name() 

"Sir Gumby’ 

如 果 尝 试 创建 多 个 Open0bject 对 象 ， 将 出 现 问 题 ， 因 为 它们 共用 同一 个 变量 。 


>>> 01 = OpenObject() 

>>> 02 = OpenObject() 

>>> 01.set name('Robin Hood') 
>>> 02.get name() 

“Robin Hood' 


如 你 所 见 , 设置 一 个 对 象 的 名 称 时 , 将 自动 设置 另 一 个 对 象 的 名 称 。 这 可 不 是 你 想 要 的 结果 。 
基本 上 , 你 希望 对 象 是 抽象 的 : 当 调用 方法 时 , 无 需 操 心 其 他 的 事情 , 如 避免 干扰 全 局 变量 。 
如 何 将 名 称 “ 封 装 ” 在 对 象 中 呢 ? 没 问 题 ， 将 其 作为 一 个 属性 即 可 。 
属性 是 归属 于 对 象 的 变量 ， 就 像 方 法 一 样 。 实 际 上 ， 方 法 差不多 就 是 与 函数 相关 联 的 属性 
(7.2.3 节 将 介绍 方法 和 函数 之 间 的 一 个 重要 差别 ), 如 果 你 使 用 属性 而 非 全 局 变量 重新 编写 前 面 的 
类 ， 并 将 其 重 命名 为 Closed0bject ， 就 可 像 下 面 这 样 使 用 它 : 


>>> C = Closed0bject() 

>>> c.set name('Sir Lancelot') 
>>> c.get name() 

“Sir Lancelot 


到 目前 为 止 一 切 顺利 , 但 这 并 不 能 证 明 名 称 不 是 存储 在 全 局 变量 中 的 。 下 面 再 来 创建 一 个 
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对 象 。 
>>> r = Closed0bject() 
>>> r.set name('Sir Robin') 
r.get_name() 
“Sir Robin’ 
从 中 可 知 正确 地 设置 了 新 对 象 的 名 称 ( 这 可 能 在 你 的 意料 之 中 )， 但 第 一 个 对 象 现 在 怎么 样 
了 呢 ? 


>>> c.get name() 
'Sir Lancelot' 


其 名 称 还 在 ! 因为 这 个 对 象 有 自己 的 状态 。 对 象 的 状态 由 其 属性 ( 如 名 称 ) 描述 。 对 象 的 方 
法 可 能 修改 这 些 属性 ， 因 此 对 象 将 一 系列 函数 (方法 ) 组 合 起 来 ， 并 赋予 它们 访问 一 些 变量 ( 属 
性 ) 的 权限 ， 而 属性 可 用 于 在 两 次 函数 调用 之 间 存 储 值 。 

7.2.4 节 将 更 详细 地 讨论 Python 的 封装 机 制 。 





























7.1.4 ”继承 


继承 是 另 一 种 偷懒 的 方式 ( 这 里 是 褒 义 )。 程 序 员 总 是 想 避 免 多 次 输入 同样 的 代码 。 本 书 前 
面 通过 创建 函数 来 达成 这 个 目标 , 但 现在 要 解决 一 个 更 微妙 的 问题 。 如 果 你 已 经 有 了 一 个 类 , 并 
要 创建 一 个 与 之 很 像 的 类 ( 可 能 只 是 新 增 了 几 个 方法 )， 该 如 何 办 呢 ? 创建 这 个 新 类 时 ， 你 不 想 
复制 旧 类 的 代码 ， 将 其 粘贴 到 新 类 中 。 

例如 ， 你 可 能 已 经 有 了 一 个 名 为 shape 的 类 ， 它 知道 如 何 将 自己 绘制 到 屏幕 上 。 现 在 你 想 创 
建 一 个 名 为 Rectangle 的 类 ， 但 它 不 仅 知道 如 何 将 自己 绘制 到 屏幕 上 ， 而 且 还 知道 如 何 计算 其 面 
内。 你 不 想 重 新 编写 方法 draw， 因 为 shape 已 经 有 一 个 这 样 的 方法 ， 且 效果 很 好 。 那 么 该 如 何 办 
呢 ? 让 Rectangle 继 承 Shape 的 方法 ， 使 得 对 Rectangle 对 象 调用 方法 draw 时 ， 将 自动 调用 Shape 类 
的 这 个 方法 〈 参 见 7.2.6 节 )。 


7.2 类 


至 此 , 你 对 类 是 什么 应 该 有 了 大 体 的 感觉 , 还 可 能 有 点 急 不 可 耐 , 希望 我 马上 介绍 如 何 创建 
类 。 介 绍 这 些 内 容 前 ， 先 来 看 看 类 是 什么 。 


7.2.1 类 到 底 是 什么 


本 书 前 面 反复 提 到 了 类 ,并 将 其 用 作 类 型 的 同义词 。 从 很 多 方面 来 说 , 这 正 是 类 的 定义 一 一 
一 种 对 象 。 每 个 对 象 都 属于 特定 的 类 ， 并 被 称 为 该 类 的 实例 。 

例如 ,如果 你 在 窗外 看 到 一 只 鸟 , 这 只 鸟 就 是 “ 鸟 类 ”的 一 个 实例 。 鸟 类 是 一 个 非常 通用 ( 抽 
象 ) 的 类 ， 它 有 多 个 子 类 : 你 看 到 的 那 只 鸟 可 能 属于 子 类 “ 云 佟 "。 你 可 将 “ 鸟 类 ” 视 为 由 所 有 
鸟 组 成 的 集合 ， 而 “云雀 ”是 其 一 个 子 集 。 一 个 类 的 对 象 为 男 一 个 类 的 对 象 的 子 集 时 ,前 者 就 是 
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后 者 的 子 类 。 因 此 “云雀 ”为 “ 鸟 类 ”的 子 类 ， 而 “ 鸟 类 ”为 “ 云 汰 ”的 超 类 。 








注意 ”在 英语 日 常 交谈 中 ， 使 用 复数 来 表示 类 ， 如 birds ( 鸟 类 ) 和 ]larks ( 云 管 )。 在 Python 中 ， 
约定 使 用 单数 并 将 首 字母 大 写 ， 如 Bird 和 Lark。 





通过 这 样 的 陈述 , 子 类 和 超 类 就 很 容易 理解 。 但 在 面向 对 象 编 程 中 , 子 类 关系 意味 深长 ， 因 
为 类 是 由 其 支持 的 方法 定义 的 。 类 的 所 有 实例 都 有 该 类 的 所 有 方法 ,因此 子 类 的 所 有 实例 都 有 超 
类 的 所 有 方法 。 有 鉴于 此 ， 要 定义 子 类 ， 只 需 定义 多 出 来 的 方法 (还 可 能 重 写 一 些 既 有 的 方法 )。 

例如 ，Bird 类 可 能 提供 方法 fly， 而 Penguin 类 ( Bird 的 一 个 子 类 ) 可 能 新 增 方法 eat_ fish。 
创建 Penguin 类 时 ， 你 还 可 能 想 重 写 超 类 的 方法 ， 即 方法 位 y。 鉴 于 企鹅 不 能 飞 ， 因 此 在 Penguin 
的 实例 中 ， 方 法 及 y 应 什么 都 不 做 或 引发 异常 (参见 第 8 章 )。 








注意 在 较 旧 的 Python 版 本 中 ， 类 型 和 类 之 间 泾 渭 分 明 : 内 置 对 象 是 基于 类 型 的 ， 而 自 定 义 对 
象 是 基于 类 的 。 因 此 ， 你 可 以 创建 类 ， 但 不 能 创建 类 型 。 在 较 新 的 Python 2 版 本 中 ， 这 种 
差别 不 那么 明显 。 在 Python 3 中 ， 已 不 再 区 分 类 和 类 型 了 。 


7.2.2 创建 自 定义 类 
终于 要 创建 自 定义 类 了 ! 下 面 是 一 个 简单 的 示例 : 


_metaclass ”= type # 如 果 你 使 用 的 是 Python 2， 请 包含 这 行 代码 




















class Person: 


def set name(self, name): 
self.name = name 


def get name(self): 
return self.name 


def greet(self): 
print("Hello, world! I'm {}.".format(self.name)) 





旧式 类 和 新 式 类 是 有 差别 的 。 现 在 实在 没有 理由 再 使 用 旧式 类 了 ,但 在 Python 3 之 前 ， 默 
认 创 建 的 是 旧式 类 。 在 较 旧 的 Python 版 本 中 ， 要 创建 新 式 类 ， 应 在 脚本 或 模块 开头 放置 
赋值 语句 ”metaclass ”= type， 但 我 不 会 在 每 个 示例 中 都 显 式 地 包含 这 条 语句 。 当 然 ， 
还 有 其 他 解决 方案 ， 如 从 新 式 类 ( 如 object ) 派生 出 子 类 。 有 关 如 何 派生 子 类 ， 稍 后 将 
详细 介绍 。 如 果 你 使 用 的 是 Python 3， 就 无 需 考虑 这 一 点 ， 因 为 根本 没有 旧式 类 了 。 有 关 
这 方面 的 详细 信息 ， 请 参阅 第 9 章 。 


注 


础 


这 个 示例 包含 三 个 方法 定义 ， 它 们 类似 于 函数 定义 ， 但 位 于 class 语 句 内 。Person 当 然 是 类 
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的 名 称 。class 语 句 创 建 独立 的 命名 空间 ， 用 于 在 其 中 定义 函数 (参见 7.2.5 节 )。 一 切 看 起 来 都 挺 
好 ,但 你 可 能 想 知道 参数 self 是 什么 。 它 指向 对 象 本 身 。 那 么 是 哪个 对 象 呢 ? 下 面 通过 创建 两 个 
实例 来 说 明 这 一 点 。 

>>> foo = Person() 

>>> bar = Person() 

>>> foo.set name('Luke Skywalker') 

>>> bar.set name('Anakin Skywalker') 

>>> foo.greet() 

Hello, world! I'm Luke Skywalker. 

>>> bar.greet() 

Hello, world! I'm Anakin Skywalker. 


这 个 示例 可 能 有 点 简单 ,但 澄清 了 self 是 什么 。 对 foo 调 用 set_name 和 greet 时 ，foo 都 会 作为 
第 一 个 参数 自动 传递 给 它们 。 我 将 这 个 参数 命名 为 self， 这 非常 贴切 。 实 际 上 ， 可 以 随便 给 这 个 
参数 命名 ， 但 鉴于 它 总 是 指向 对 象 本 身 ， 因 此 习惯 上 将 其 命名 为 self。 
显然 ，self 很 有 用 ， 甚 至 必 不 可 少 。 如 果 没 有 它 ， 所 有 的 方法 都 无 法 访问 对 象 本 身 一 一 要 操 
作 的 属性 所 属 的 对 象 。 与 以 前 一 样 ， 也 可 以 从 外 部 访问 这 些 属性 。 


>>> foo.name 

‘Luke Skywalker' 

>>> bar.name = 'Yoda’ 
>>> bar.greet() 

Hello, world! I'm Yoda. 
























































提示 。 如果 foo 是 一 个 Person 实 例 ， 可 将 foo.greet() 视 为 Person.greet(fo0) 的 简写 , 但 后 者 的 多 
态 性 更 低 。 


7.2.3 属性、 函数 和 方法 


实际 上 ,方法 和 函数 的 区 别 表现 在 前 一 节 提 到 的 参数 self 上 。 方法 (更 准确 地 说 是 关联 的 方 
法 ) 将 其 第 一 个 参数 关联 到 它 所 属 的 实例 ， 因 此 无 需 提 供 这 个 参数 。 无 疑 可 以 将 属性 关联 到 一 个 
普通 函数 ， 但 这 样 就 没有 特殊 的 self 参 数 了 。 


>>> class Class: 
def method(self): 
print('I have a self!') 

















二 



































>> 


NA 


def function() : 
print("I don't...") 


>>> instance = Class() 

>>> instance.method() I have a self! 
>>> instance.method = function 

>>> instance.method() I don't... 


请 注意 , 有 没有 参数 self 并 不 取决 于 是 否 以 刚才 使 用 的 方式 ( 如 instance.method ) 调 用 方法 。 
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实际 上 ， 完 全 可 以 让 另 一 个 变量 指向 同一 个 方法 。 
>>> class Bird: 
song = “9quaawkl 
def sing(self): 
print(self.song) 


>>> bird = Bird() 

>>> bird.sing() 

Squaawk! 

>>> birdsong = bird.sing 
>>> birdsong() 

Squaawk! 


虽然 最 后 一 个 方法 调用 看 起 来 很 像 函数 调用 ,但 变量 pirdsong 指 向 的 是 关联 的 方法 
bird.sing， 这 意味 着 它 也 能 够 访问 参数 self( 即 它 也 被 关联 到 类 的 实例 )。 





7.2.4 再 谈 隐藏 
默认 情况 下 ， 可 从 外 部 访问 对 象 的 属性 。 再 来 看 一 下 前 面 讨论 封装 时 使 用 的 示例 。 


>>> c.name 
‘Sir Lancelot 

>>> c.name = 'Sir Qumpy 
>>> c.get name() 

“Sir Gumby’ 


有 些 程序 员 认 为 这 没 问 题 ， 但 有 些 程 序 员 ( 如 Smalltalk" 之 父 ) 认为 这 违反 了 封装 原则 。 他 
们 认为 应 该 对 外 部 完全 隐藏 对 象 的 状态 ( 即 不 能 从 外 部 访问 它们 )。 你 可 能 会 问 ， 为 何 他 们 的 立 
场 如 此 极端 ? 由 每 个 对 象 管理 自己 的 属性 还 不 够 吗 ? 为 何 要 向 外 部 隐藏 属性 ? 毕竟 , 如 果 能 直接 
访问 Closed0bject (对 象 c 所 属 的 类 ) 的 属性 name， 就 不 需要 创建 方法 setName 和 getName 了 。 

关键 是 其 他 程序 员 可 能 不 知道 ( 也 不 应 知道 ) 对 象 内 部 发 生 的 情况 。 例 如 ，Closed0bject 可 
能 在 对 象 修改 其 名 称 时 向 管理 员 发 送 电子 邮件 。 这 种 功能 可 能 包含 在 方法 set_name 中 。 但 如 果 直 
接 设置 c.name， 结 果 将 如 何 呢 ? 什么 都 不 会 发 生 一 一 根本 不 会 发 送 电子 邮件 。 为 避免 这 类 问题 ， 
可 将 属性 定义 为 私有 。 私 有 属性 不 能 从 对 象 外 部 访问 ， 而 只 能 通过 存 取 器 方法 ( 如 get_name 和 
set_name ) 来 访问 。 



































注意 第 9 章 将 介绍 特性 (property )， 这 是 一 种 功能 强大 的 存 取 器 替代 品 。 























Python 没 有 为 私有 属性 提供 直接 的 支持 , 而 是 要 求 程序 员 知道 在 什么 情况 下 从 外 部 修改 属性 
是 安全 的 。 毕 况 ， 你 必须 在 知道 如 何 使 用 对 象 之 后 才能 使 用 它 。 然 而 ,通过 玩 点 小 花招 ， 可 获得 
类 似 于 私有 属性 的 效果 。 

要 让 方法 或 属性 成 为 私有 的 (不 能 从 外 部 访问 )， 只 需 让 其 名 称 以 两 个 下 划 线 打头 即 可 。 









































Qz 在 Smalltalk 中 ， 只 能 通过 对 象 的 方法 来 访问 其 属性 。 
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class Secretive: 


def inaccessible(self): 
print("Bet you can't see me ...") 


def accessible(self): 
print("The secret message is:") 
self. inaccessible() 


现在 从 外 部 不 能 访问 _ inaccessible， 但 在 类 中 〈 如 accessible 中 ) 依然 可 以 使 用 它 。 


>>> s = Secretive() 

>>> s. inaccessible() 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


AttributeError: Secretive instance has no attribute ' inaccessible' 


>>> s.accessible() 
The secret message is: 
Bet you can't see me ... 


虽然 以 两 个 下 划 线 打头 有 点 怪异 ， 但 这 样 的 方法 类 似 于 其 他 语言 中 的 标准 私有 方法 。 然 而 ， 
幕后 的 处 理 手 法 并 不 标准 : 在 类 定义 中 , 对 所 有 以 两 个 下 划 线 打头 的 名 称 都 进行 转换 ， 即 在 开头 








加 上 一 个 下 划 线 和 类 名 。 


>>> Secretive. Secretive inaccessible 
<unbound method Secretive. inaccessible> 


知道 这 种 幕后 处 理 手 法 ， 就 能 从 类 外 访问 私有 方法 ， 然 而 不 应 这 样 做 。 





>>> s. Secretive inaccessible() 
Bet you can't see me ... 





总 之 ,你 无 法 禁止 别人 访问 对 象 的 私有 方法 和 属性 ,但 这 种 名 称 修改 方式 发 出 了 强烈 的 信号 ， 


让 他 们 不 要 这 样 做 。 
如 果 你 不 希望 名 称 被 修改 , 又 想 发 出 不 要 从 外 部 修改 














属性 或 方法 的 信号 , 可 用 一 个 下 划 线 打 


头 。 这 虽然 只 是 一 种 约定 ， 但 也 有 些 作 用 。 例 如 ，from module import * 不 会 导入 以 一 个 下 划 线 


打头 的 名 称 。 


7.2.5 ”类 的 命名 空间 
下 面 两 条 语句 大 致 等 价 : 


def foo(x): return x * x 
foo = lambda x: x * x 


它们 都 创建 一 个 返回 参数 平方 的 函数 ， 并 将 这 个 函数 关联 到 变量 foo。 可 以 在 全 局 (模块 ) 
作用 域内 定义 名 称 foo， 也 可 以 在 函数 或 方法 内 定义 。 定 义 类 时 情况 亦 如 此 : 在 class 语 句 中 定义 

















Q 对 于 成 员 变 量 (属性 )， 有 些 语 言 支持 多 种 私有 程度 。 例 如 ，Java 支 持 4 种 不 同 的 私有 程度 。Python 没 有 提供 这 样 

















的 支持 ， 不 过 从 某 种 程度 上 说 ， 以 一 个 和 两 个 下 划 线 打头 相当 于 两 种 不 同 的 私有 程度 。 
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的 代码 都 是 在 一 个 特殊 的 命名 空间 ( 类 的 命名 空间 ) 内 执行 的 ， 而 类 的 所 有 成 员 都 可 访问 这 个 命 
名 空间 。 类 定义 其 实 就 是 要 执行 的 代码 段 ， 并 非 所 有 的 Python 程序 员 都 知道 这 一 点 ， 但 知道 这 一 
点 很 有 帮助 。 例 如 ， 在 类 定义 中 ， 并 非 只 能 包含 def 语 句 。 


>>> class C: 
print('Class C being defined...') 





Class C being defined... 
>>> 


这 有 点 傻 ， 但 请 看 下 面 的 代码 : 


class MemberCounter: 

embers = 0 

def init(self): 
MemberCounter.members += 1 


>>> m1 = MemberCounter() 

>>> m1.init() 

>>> MemberCounter.members 
1 
>>> m2 = MemberCounter() 

>>> m2.init() 

>>> MemberCounter.members 
2 


上 述 代码 在 类 作用 域内 定义 了 一 个 变量 ， 所 有 的 成 员 (实例 ) 都 可 访问 它 ， 这 里 使 用 它 来 计 
算 类 实例 的 数量 。 注 意 到 这 里 使 用 了 init 来 初始 化 所 有 实例 ,第 9 章 将 把 这 个 初始 化 过 程 自动 化 ， 
也 就 是 将 init 转 换 为 合适 的 构造 函数 。 

每 个 实例 都 可 访问 这 个 类 作用 域内 的 变量 ， 就 像 方 法 一 样 。 

>>> m1.members 


>>> m2.members 
2 


如 果 你 在 一 个 实例 中 给 属性 mempers 赋 值 ， 结 果 将 如 何 呢 ? 


>>> m1.members = “Two 
>>> m1.members 

"Two 

>>> m2.members 

2 


新 值 被 写 人 吧 的 一 个 属性 中 ， 这 个 属性 遮 住 了 类 级 变量 。 这 类 似 于 第 6 章 的 旁 注 “遮盖 的 问 
题 ” 所 讨论 的 ， 函 数 中 局 部 变量 和 全 局 变量 之 间 的 关系 。 


7.2.6 ”指定 超 类 


本 章 前 面 讨 论 过 ， 子 类 扩展 了 超 类 的 定义 。 要 指定 超 类 ， 可 在 class 语 句 中 的 类 名 后 加 上 超 
类 名 ， 并 将 其 用 圆 括号 括 起 。 
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class Filter: 
def init(self): 
self.blocked = [] 
def filter(self, sequence): 
return [x for x in sequence if x not in self.blocked] 


class SPAMFilter(Filter): # SPAMFilter 是 Filter 的 子 类 
def init(self): # 重 写 超 类 Filter 的 方法 init 
self.blocked = ['SPAM'] 


Filter 是 一 个 过 滤 序 列 的 通用 类 。 实 际 上 ， 它 不 会 过 滤 掉 任何 东西 。 


>>> f = Filter() 
>>> f.init() 
>>> f.filter([1, 2, 3]) 
[4;:253 


Filter 类 的 用 途 在 于 可 用 作 其 他 类 ( 如 将 'SPAM' 从 序列 中 过 滤 掉 的 SPAMFilter 类 ) 的 基 类 


























( 超 类 )。 


£2: 


>>> s = SPAMFilter() 
>>> s.init() 


>>> s.filter(['SPAM', 'SPAM', 'SPAM', 'SPAM', 'eggs', 'bacon', 'SPAM']) 
en nk 


请 注意 SPAMFilter 类 的 定义 中 有 两 个 要 点 。 

口 以 提供 新 定义 的 方式 重 写 了 Filter 类 中 方法 init 的 定义 。 

口 直接 从 Filter 类 继承 了 方法 filter 的 定义 ， 因 此 无 需 重新 编写 其 定义 。 

第 二 点 说 明了 继承 很 有 用 的 原因 : 可 以 创建 大 量 不 同 的 过 滤器 类 ,它们 都 从 Filter 类 派生 而 
并 且 都 使 用 已 编写 好 的 方法 位 ]ter。 这 就 是 懒惰 的 好 处 。 


7 深入 探讨 继承 
要 确定 一 个 类 是 否 是 男 一 个 类 的 子 类 ， 可 使 用 内 置 方法 issubclass。 


>>> issubclass(SPAMFilter, Filter) 
True 
>>> issubclass(Filter, SPAMFilter) 
False 


如 果 你 有 一 个 类 ， 并 想 知 道 它 的 基 类 ， 可 访问 其 特殊 属性 _bases_。 


>>> SPAMFilter. bases 

(<class _main .Filter at Ox171e40>,) 
>>> Filter. bases 
(<class 'object'>,) 


同样 ， 要 确定 对 象 是 否 是 特定 类 的 实例 ， 可 使 用 isinstance。 


>>> s = SPAMFilter() 
>>> isinstance(s, SPAMFilter) 
True 

>>> isinstance(s, Filter) 
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True 
>>> isinstance(s, str) 
False 


注意 使 用 isinstance 通 常 不 是 良好 的 做 法 , 依赖 多 态 在 任何 情况 下 都 是 更 好 的 选择 。 一 个 重要 
的 例外 情况 是 使 用 抽象 基 类 和 模块 abc 时 。 




















如 你 所 见 , s 是 SPAMFilter 类 的 ( 直接) 实例, 但 它 也 是 Filter 类 的 间接 实例 , 因为 SPAMFilter 
是 Filter 的 子 类 。 换 而 言 之 ,所 有 SPAMFilter 对 象 都 是 Filter 对 象 . 从 前 一 个 示例 可 知 , isinstance 
也 可 用 于 类 型 ， 如 字符 串 类 型 (str )。 

如 果 你 要 获悉 对 象 属于 哪个 类 ， 可 使 用 属性 _ class_。 


>>> s._ class 
<class _main .SPAMFilter at Ox1707cO> 



































注意 ”对 于 新 式 类 (无论 是 通过 使 用 _metaclass ”=type 还 是 通过 从 object 继 承 创建 的 ) 的 实例 ， 
还 可 使 用 type(s) 来 获悉 其 所 属 的 类 。 对 于 所 有 旧式 类 的 实例 ，type 都 只 是 返回 instance。 


7.2.8 ”多 个 起 类 


在 前 一 他 ， 你 肯定 注意 到 了 一 个 有 点 奇怪 的 细节 : 复数 形式 的 _bases”_。 前 面 说 过 ,你 可 
使 用 它 来 获悉 类 的 基 类 ， 而 基 类 可 能 有 多 个 。 为 说 明 如 何 继承 多 个 类 ， 下 面 来 创建 几 个 类 。 


Class Calculator: 
def calculate(self, expression): 
self.value = eval(expression) 








class Talker: 
def talk(self): 
print('Hi, my value is', self.value) 








class TalkingCalculator(Calculator, Talker): 
pass 


子 类 TalkingCalculator 本 身 无 所 作为 , 其 所 有 的 行为 都 是 从 超 类 那里 继承 的 。 关键 是 通过 从 
Calculator 那 里 继承 calculate， 并 从 Talkex 那 里 继承 talk， 它 成 了 会 说 话 的 计算 器 。 


>>> tc = TalkingCalculator() 

>>> tc.calculate('1+2*3') 

>>> tc.talk() 

Hi, my value is 7 

这 被 称 为 多 重 继 承 ， 是 一 个 功能 强大 的 工具 。 然 而 ,除非 万 不 得 已 ， 否 则 应 避免 使 用 多 重 继 
承 ， 因 为 在 有 些 情况 下 ， 它 可 能 带 来 意外 的 “并 发 症 ”。 

使 用 多 重 继承 时 ， 有 一 点 务必 注意 : 如 果 多 个 超 类 以 不 同 的 方式 实现 了 同一 个 方法 ( 即 有 多 
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个 同名 方法 )， 必 须 在 class 语 句 中 小 心 排列 这 些 超 类 ， 因 为 位 于 前 面 的 类 的 方法 将 覆盖 位 于 后 面 
的 类 的 方法 -因此 ,在 前 面 的 示例 中 ,如 果 Calculator 类 包含 方法 talk, 那 么 这 个 方法 将 覆盖 Talker 
类 的 方法 talk (导致 它 不 可 访问 )。 如 果 像 下 面 这 样 反 转 超 类 的 排列 顺序 : 

class TalkingCalculator(Talker, Calculator): pass 

将 导致 Talker 的 方法 talk 是 可 以 访问 的 。 多 个 超 类 的 超 类 相同 时 ， 查 找 特 定 方 法 或 属性 时 访 
问 超 类 的 顺序 称 为 方法 解析 顺序 (MRO )， 它 使 用 的 算法 非常 复杂 。 所 幸 其 效果 很 好 ， 你 可 能 
本 无 需 担心 。 




















7.2.9 接口 和 内 省 


接口 这 一 概念 与 多 态 相 关 。 处 理 多 态 对 象 时 ， 你 只 关心 其 接口 (协议 ) 一 一 对 外 其 露 的 方 
法 和 属性 。 在 Python 中 ， 不 显 式 地 指定 对 象 必须 包含 哪些 方法 才能 用 作 参 数 。 例 如 ， 你 不 会 像 
在 Java 中 那样 显 式 编写 接口 ， 而 是 假定 对 象 能 够 完成 你 要 求 它 完 成 的 任务 。 如 果 不 能 完成 ， 程 
序 将 失败 。 

通常 ， 你 要 求 对 象 遵循 特定 的 接口 〈 即 实现 特定 的 方法 )， 但 如 果 需 要 ， 也 可 非常 灵活 地 提 
出 要 求 : 不 是 直接 调用 方法 并 期 待 一 切 顺 利 ， 而 是 检查 所 需 的 方法 是 否 存在 ; 如 果 不 存在 ， 就 改 
弦 易 办 。 


>>> hasattr(tc, 'talk') 
True 

>>> hasattr(tc, 'fnord') 
False 


在 上 述 代码 中 ， 你 发 现 tc ( 本 章 前 面 介绍 的 TalkingCalculator 类 的 实例 ) 包含 属性 talk ( 指 
向 一 个 方法 )， 但 没有 属性 fnord。 如 果 你 愿意 ， 还 可 以 检查 属性 talk 是 否 是 可 调用 的 。 


>>> callable(getattr(tc, 'talk', None)) 
True 
>>> callable(getattr(tc, 'fnord', None)) 
False 


请 注意 ， 这 里 没有 在 if 语 句 中 使 用 hasattr 并 直接 访问 属性 ， 而 是 使 用 了 getattr ( 它 让 我 能 
够 指定 属性 不 存在 时 使 用 的 默认 值 ， 这 里 为 None )， 然 后 对 返回 的 对 象 调用 callable。 







































































注意 ”setattr 与 getattr 功 能 相反 ， 可 用 于 设置 对 象 的 属性 : 


>>> setattr(tc, 'name'’, 'Mr. Gumby') 
>>> tc.name 
'Mr. Gumby’ 

















要 查看 对 象 中 存储 的 所 有 值 ， 可 检查 其 _dict_ 属性。 如 果 要 确定 对 象 是 由 什么 组 成 的 ， 应 
研究 模块 inspect。 这 个 模块 主要 供 高 级 用 户 创建 对 象 浏览 器 ( 让 用 户 能 够 以 图 形 方式 浏览 Python 
对 象 的 程序 ) 以 及 其 他 需要 这 种 功能 的 类 似 程 序 。 有 关 对 象 和 模块 的 详细 信息 ， 请 参阅 10.2 节 。 
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7.2.10 抽象 基 类 





然而 ， 有 上 比 手 工 检查 各 个 方法 更 好 的 选择 。 在 历史 上 的 大 部 分 时 间 内 ，Python 几 乎 都 只 依赖 
于 鸭子 类 型 ， 即 假设 所 有 对 象 都 能 完成 其 工作 ， 同 时 偶尔 使 用 nasattr 来 检查 所 需 的 方法 是 否 存 


在 。 很 多 其 他 语言 ( 如 Java 和 Go ) 都 采用 显 式 指定 接口 的 到 











E 念 ， 而 有 些 第 三 方 模块 提供 了 这 种 理 





念 的 各 种 实现 。 最 终 ，Python 通 过 引入 模块 abc 提 供 了 官方 解决 方案 。 这 个 模块 为 所 谓 的 抽象 基 








类 提供 了 支持 。 一 般 而 言 ， 抽 象 类 是 不 能 ( 至 少 是 不 应 该 ) 
现 的 一 组 抽象 方法 。 下 面 是 一 个 简单 的 示例 : 


from abc import ABC, abstractmethod 





class Talker(ABC): 
@abstractmethod 
def talk(self): 
pass 








实例 化 的 类 ， 其 职责 是 定义 子 类 应 实 




















形 如 ethis 的 东西 被 称 为 装饰 器， 其 用 法 将 在 第 9 章 详 细 介 绍 。 这 里 的 要 点 是 你 使 用 
@abstractmethod 来 将 方法 标记 为 抽象 的 一 一 在 子 类 中 必须 实现 的 方法 。 


注意 ”如果 你 使 用 的 是 较 旧 的 Python 版 本 , 将 无 法 在 模块 


bc 中 找到 ABC 类 。 在 这 种 情况 下 ， 需 要 


导入 ABCMeta， 并 在 类 定义 开头 包含 代码 行 _metaclass = ABCMeta ( 紧 跟 在 class 语 和 句 后 


面 并 缩 进 ),。 如 果 你 使 用 的 是 3.4 之 前 的 Python 3 版 本 ， 
代替 Talker(ABC)。 


也 可 使 用 Talker(metaclass=ABCMeta) 





抽象 类 即 包含 抽象 方法 的 类 ) 最 重要 的 特征 是 不 能 实例 化 。 





>>> Talker() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: Can't instantiate abstract class Talker with abstract methods talk 


假设 像 下面 这 样 从 它 派生 出 一 个 子 类 : 
class Knigget(Talker): 
pass 

















由 于 没有 重 写 方法 talk， 因 此 这 个 类 也 是 抽象 的 ,不 能 实例 化 。 如 果 你 试图 这 样 做 , 将 出 现 
类 似 于 前 面 的 错误 消息 。 然 而 ， 你 可 重新 编写 这 个 类 ,使 其 实现 要 求 的 方法 。 























class Knigget(Talker): 
def talk(self): 
print("Ni!") 








现在 实例 化 它 没有 任何 问题 。 这 是 抽象 基 类 的 主要 用 途 ， 而 且 只 有 在 这 种 情形 下 使 用 
isinstance 才 是 妥当 的 : 如 果 先 检查 给 定 的 实例 确实 是 Talker 对 象 ， 就 能 相信 这 个 实例 在 需要 的 








情况 下 有 方法 talk。 


>>> k = Knigget() 
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>>> isinstance(k, Talker) 

True 

>>> k.talk() 

Nil 

然而 ， 还 缺少 一 个 重要 的 部 分 一 一 让 isinstance 的 多 态 程度 更 高 的 部 分 。 正 如 你 看 到 的 ， 抽 
象 基 类 让 我 们 能 够 本 着 鸭子 类 型 的 精神 使 用 这 种 实例 检查 ! 我 们 不 关心 对 象 是 什么 , 只 关心 对 象 
能 做 什么 〈 它 实现 了 哪些 方法 )。 因 此 ， 只 要 实现 了 方法 talk， 即 便 不 是 Talker 的 子 类 ， 依 然 能 
够 通过 类 型 检查 。 下 面 来 创建 男 一 个 类 。 

class Herring: 

def talk(self): 
print("Blub.") 
这 个 类 的 实例 能 够 通过 是 否 为 Talker 对 象 的 检查 ， 可 它 并 不 是 Talker 对 象 。 


>>> h = Herring() 
>>> isinstance(h, Talker) 
False 


诚然 ， 你 可 从 Talker 派 生出 Herring， 这 样 就 万 事 大 吉 了 ， 但 Herring 可 能 是 从 他 人 的 模块 中 
导入 的 。 在 这 种 情况 下 ， 就 无 法 采取 这 样 的 做 法 。 为 解决 这 个 问题 , 你 可 将 Herring 注 册 为 Talker 
( 而 不 从 Herring 和 Talker 派 生出 子 类 )， 这 样 所 有 的 Herring 对 象 都 将 被 视 为 Talker 对 象 。 


>>> Talker.register(Herring) 
<class '_ main .Herring'> 

>>> isinstance(h, Talker) 

True 

>>> issubclass(Herring, Talker) 
True 


然而 ， 这 种 做 法 存在 一 个 缺点 ， 就 是 直接 从 抽象 类 派生 提供 的 保障 没有 本。 


>>> class Clam: 
pass 




























































































>>> Talker.register(Clam) 
<class ' main .Clam'> 
>>> issubclass(Clam, Talker) 
True 
>>> c = Clam() 
>>> isinstance(c, Talker) 
True 
>>> c.talk() 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
AttributeError: 'Clam' object has no attribute "talk 


换 而 言 之 , 应 将 isinstance 返 回 True 视 为 一 种 意图 表达 。 在 这 里 ，Clam 有 成 为 Talker 的 意图 。 
本 着 鸭子 类 型 的 精神 ， 我 们 相信 它 能 承担 Talker 的 职责 ， 但 可 悲 的 是 它 失败 了 。 

标准 库 〈 如 模块 collections.abc ) 提供 了 多 个 很 有 用 的 抽象 类 ， 有 关 模 块 abc 的 详细 信息 ， 
请 参阅 标准 库 参 考 手册 。 
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7.3 ”关于 面向 对 象 设 计 的 一 些 思考 





专门 探讨 面向 对 象 程序 设计 的 图 书 很 多 ， 虽 然 这 并 非 本 书 的 重点 ， 但 还 是 要 提供 一 些 指 南 。 

口 将 相关 的 东西 放 在 一 起 。 如 果 一 个 函数 操作 一 个 全 局 变量 ， 最 好 将 它们 作为 一 个 类 的 属 

性 和 方法 。 

口 不 要 让 对 象 之 间 过 于 亲密 。 方 法 应 只 关心 其 所 属实 例 的 属性 ， 对 于 其 他 实例 的 状态 ， 让 

它们 自己 去 管理 就 好 了 。 

口 慎 用 继承 ， 尤 其 是 多 重 继承 。 继 承 有 时 很 有 用 ， 但 在 有 些 情况 下 可 能 带 来 不 必要 的 复杂 

性 。 要 正确 地 使 用 多 重 继承 很 难 ， 要 排除 其 中 的 bug 更 难 。 

D 保持 简单 。 让 方法 短小 紧凑 。 一 般 而 言 ， 应 确保 大 多 数 方法 都 能 在 30 秒 内 读 完 并 理解 。 
对 于 其 余 的 方法 ， 尽 可 能 将 其 篇 幅 控制 在 一 页 或 一 屏 内 。 

确定 需要 哪些 类 以 及 这 些 类 应 包含 哪些 方法 时 ， 尝 试 像 下 面 这 样 做 。 

(1) 将 有 关 问 题 的 描述 (程序 需要 做 什么 ) 记录 下 来 ， 并 给 所 有 的 名 词 、 动 词 和 形容 词 加 





























上 标记 。 


汇 


(2) 在 名 词 中 找 出 可 能 的 类 。 

(3) 在 动词 中 找 出 可 能 的 方法 。 

(4) 在 形容 词 中 找 出 可 能 的 属性 。 

(5) 将 找 出 的 方法 和 属性 分 配给 各 个 类 。 

有 了 面向 对 象 模型 的 草图 后 ， 还 需 考 虑 类 和 对 象 之 间 的 关系 〈 如 继承 或 协作 ) 以 及 它们 的 职 











。 为 进一步 改进 模型 ， 可 像 下 面 这 样 做 。 





(1) 记录 (或 设想 ) 一 系列 用 例 , 即使 用 程序 的 场景 , 并 尽力 确保 这 些 用 例 涵盖 了 所 有 的 功能 。 
(2) 透彻 而 仔细 地 考虑 每 个 场景 ， 确 保 模型 包含 了 所 需 的 一 切 。 如 果 有 和 遗漏， 就 加 上 ; 如 果 
































有 不 太 对 的 地 方 ， 就 修改 。 不 断 地 重复 这 个 过 程 ， 直 到 对 模型 满意 为 止 。 














有 了 你 认为 行 之 有 效 的 模型 后 , 就 可 以 着 手 编写 程序 了 。 你 很 可 能 需要 修改 模型 或 程序 的 某 























些 部 分 ， 所 幸 这 在 Python 中 很 容易 ， 请 不 用 担心 。 只 管 按 这 里 说 的 去 做 就 好 。( 如 果 你 需要 更 详 
细 的 面向 对 象 编程 指南 ， 请 参阅 第 19 章 的 推荐 书目 。) 


7.4 


总 结 























小 结 


本 童 不仅 介 绍 了 有 关 Python 语 言 的 知识 ,还 介绍 了 多 个 你 可 能 一 点 都 不 熟悉 的 概念 。 下 面 来 

二 

口 对 象 : 对 象 由 属性 和 方法 组 成 。 属 性 不 过 是 属于 对 象 的 变量 ， 而 方法 是 存储 在 属性 中 的 
函数 。 相 比 于 其 他 函数 ，( 关联 的 ) 方法 有 一 个 不 同 之 处 ， 那 就 是 它 总 是 将 其 所 属 的 对 象 
作为 第 一 个 参数 ， 而 这 个 参数 通常 被 命名 为 self。 

口 类 : 类 表示 一 组 (或 一 类 ) 对 象 ， 而 每 个 对 象 都 属于 特定 的 类 。 类 的 主要 任务 是 定义 其 
实例 将 包含 的 方法 。 
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D 多 态 : 多 态 指 的 是 能 够 同样 地 对 待 不 同类 型 和 类 的 对 象 ， 即 无 需 知道 对 象 属于 哪个 类 就 

可 调用 其 方法 。 

口 封装 : 对 象 可 能 隐藏 《封装 ) 其 内 部 状态 。 在 有 些 语言 中 ， 这 意味 着 对 象 的 状态 (属性 ) 
只 能 通过 其 方法 来 访问 。 在 Python 中 , 所 有 的 属性 都 是 公有 的 ,但 直接 访问 对 象 的 状态 时 
程序 员 应 谨慎 行事 ， 因 为 这 可 能 在 不 经 意 间 导致 状态 不 一 致 。 

口 继承 : 一 个 类 可 以 是 一 个 或 多 个 类 的 子 类 ， 在 这 种 情况 下 ， 子 类 将 继承 超 类 的 所 有 方法 。 
你 可 指定 多 个 超 类 ， 通 过 这 样 做 可 组 合 正 交 ( 独立 且 不 相关 ) 的 功能 。 为 此 ， 一 种 常见 
的 做 法 是 使 用 一 个 核心 超 类 以 及 一 个 或 多 个 混合 超 类 。 

口 接口 和 内 省 : 一 般 而 言 ， 你 无 需 过 于 深入 地 研究 对 象 ， 而 只 依赖 于 多 态 来 调用 所 需 的 方 

法 。 然 而 ， 如 果 要 确定 对 象 包含 哪些 方法 或 属性 ， 有 一 些 函 数 可 供 你 用 来 完成 这 种 工作 。 

口 抽象 基 类 : 使 用 模块 abc 可 创建 抽象 基 类 。 抽 象 基 类 用 于 指定 子 类 必须 提供 哪些 功能 ， 却 

不 实现 这 些 功 能 。 

口 面向 对 象 设计 : 关于 该 如 何 进 行 面向 对 象 设计 以 及 是 否 该 采用 面向 对 象 设计 ， 有 很 多 不 
同 的 观点 。 无 论 你 持 什么 样 的 观点 ， 都 必须 深入 理解 问题 ， 进 而 创建 出 易于 理解 的 设计 。 









































































































































7.4.1 本 章 介绍 的 新 函数 
四 

callable(object) 判断 对 象 是 否 是 可 调用 的 ( 如 是 否 是 函数 或 方法 ) 

getattr(object,name[, default]) 获取 属性 的 值 ， 还 可 提供 默认 值 

hasattr(object, name) 确定 对 象 是 否 有 指定 的 属性 

isinstance(object, class) 确定 对 象 是 否 是 指定 类 的 实例 

issubclass(A, B) 确定 A 是 否 是 6 的 子 类 

random. choice(sequence) 从 一 个 非 空 序列 中 随机 地 选择 一 个 元 素 

setattr(object, name, value) 将 对 象 的 指定 属性 设置 为 指定 的 值 

type(object) 返回 对 象 的 类 型 





7.4.2 ”预告 


你 深入 地 学 习 了 如 何 创建 自 定义 对 象 , 并 知道 这 很 有 用 。 下 一 章 介绍 异常 处 理 , 其 篇 幅 较 小 ， 
让 你 能 够 软 口 气 。 然 后 ， 将 深入 介绍 Python 的 特殊 方法 (第 9 童 )。 








已 A 
村 中 























写 计算 机 程序 时 ,通常 能 够 区 分 正常 和 异常 (不 正常 ) 情况 。 异 常事 件 可 能 是 错误 ( 如 试 
图 除 以 零 )， 也 可 能 是 通常 不 会 发 生 的 事情 。 为 处 理 这 些 异 常事 件 ， 可 在 每 个 可 能 发 生 这 些 事件 
的 地 方 都 使 用 条 件 语句 。 例 如 ， 对 于 每 个 除法 运算 ,都 检查 除数 是 否 为 零 。 然 而 ， 这样 做 不 仅 效 
率 低 下 、 缺 乏 灵 活性 ,还 可 能 导致 程序 难以 座 读 。 你 可 能 很 想 忽略 这 些 异常 事件 , 希望 它们 不 会 
发 生 ， 但 Python 提供 功能 强大 的 蔡 代 解 决 方案 一 一 异常 处 理 机 制 。 

在 本 章 中 ， 你 将 学 习 如 何 创建 和 引发 异常 ， 以 及 各 种 异常 处 理 方式 。 


8.1 异常 是 什么 


Python 使 用 异常 对 象 来 表示 异常 状态 ， 并 在 遇 到 错误 时 引发 异常 。 异 常 对 象 未 被 处 理 (或 捕 
获 ) 时 ， 程 序 将 终止 并 显示 一 条 错误 消息 (traceback )。 


>>> 1 /0 
Traceback (most recent call last): 

File "<stdin>", line 1, in ? 
ZeroDivisionError: integer division or modulo by zero 


如 果 异 常 只 能 用 来 显示 错误 消息 ,就 没 多 大 意思 了 。 但 事实 上 ,每 个 异常 都 是 某 个 类 ( 这 里 
是 ZeroDivisionError ) 的 实例 。 你 能 以 各 种 方式 引发 和 捕获 这 些 实例 , 从 而 逮 住 错 误 并 采取 措施 ， 
而 不 是 放任 整个 程序 失败 。 


8.2 ”让 事情 沿 你 指定 的 轨道 出 错 


正如 你 看 到 的 ， 出 现 问 题 时 , 将 自动 引发 异常 。 先 来 看 看 如 何 自主 地 引发 异常 还 有 如 何 创 
建 异常 ,然后 再 学习 如 何 处 理 这 些 异常 。 

















































































































8.2.1 raise 语句 


要 引发 异常 ， 可 使 用 raise 语 句 ， 并 将 一 个 类 ( 必须 是 Exception 的 子 类 ) 或 实例 作为 参数 。 
将 类 作为 参数 时 ， 将 自动 创建 一 个 实例 。 下 面 的 示例 使 用 的 是 内 置 异常 类 Exception: 


>>> raise Exception 
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Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
Exception 
>>> raise Exception('hyperdrive overload') 
Traceback (most recent call last): 
File "<«stdin>", line 1, in ? 
Exception: hyperdrive overload 


在 第 一 个 示例 ( raise Exception ) 中 ,引发 的 是 通用 异常 ,没有 指出 出 现 了 什么 错误 。 在 第 
二 个 示例 中 ,添加 了 错误 消息 hyperdrive overload。 

有 很 多 内 置 的 异常 类 ， 表 8-1 描 述 了 最 重要 的 几 个 。 在 “Python 库 参考 手册 ”的 Built-in 
Exceptions 一 节 ， 可 找到 有 关 所 有 内 置 异常 类 的 描述 。 这 些 异常 类 都 可 用 于 raise 语 句 中 。 


>>> raise ArithmeticError 
Traceback (most recent call last): 
File "<«stdin>", line 1, in ? 






















































































ArithmeticError 
表 8-1 一 些 内 置 的 异常 类 

类 名 描述 
人 几乎 所 有 的 异常 类 都 是 从 它 派 生 而 来 的 
Mitr thuteprror 引用 属性 或 给 它 赋值 失败 时 引发 
外 全 操作 系统 不 能 执行 指定 的 任务 ( 如 打开 文件 ) 时 引发 ， 有 多 个 子 类 
IndexError 使 用 序列 中 不 存在 的 索引 时 引发 ， 为 LookupError 的 子 类 
KeyError 使 用 映射 中 不 存在 的 键 时 引发 ， 为 LookupError 的 子 类 
NameEr Eor 找 不 到 名 称 ( 变量 ) 时 引发 
syntaxE rror 代码 不 正确 时 引发 
TypeE tro 将 内 置 操作 或 函数 用 于 类 型 不 正确 的 对 象 时 引发 
WE 将 内 置 操作 或 函数 用 于 这 样 的 对 象 时 引发 :其 类 型 正确 但 包含 的 值 不 合适 
ZeroDivisionError 在 除法 或 求 模 运算 的 第 二 个 参数 为 零 时 引发 





8.2.2 自 定义 的 异常 类 


虽然 内 置 异常 涉及 的 范围 很 广 , 能 够 满足 很 多 需求 , 但 有 时 你 可 能 想 自己 创建 异常 类 。 例如， 
在 前 面 的 超 光 速 推 进 装置 过 载 ( hyperdrive overload ) 示例 中 , 使 用 专用 的 HyperdriveError 类 来 
表示 超 光速 推进 装置 的 错误 状态 不 是 更 自然 吗 ? 好 像 提 供 了 错误 消息 就 足够 了 ,但 在 8.3 节 你 将 
看 到 ,可 基于 异常 所 属 的 类 选择 性 地 处 理 异 常 。 因 此 ,如果 你 要 使 用 特殊 的 错误 处 理 代码 对 超 光 
速 推进 装置 错误 进行 处 理 ， 就 必须 有 一 个 专门 用 于 表示 这 些 异 常 的 类 。 
那么 如 何 创 建 异 常 类 呢 ? 就 像 创建 其 他 类 一 样 ， 但 务必 直接 或 间接 地 继承 Exception (这 意 
味 着 从 任何 内 置 异常 类 派生 都 可 以 )。 因 此 ， 自 定义 异常 类 的 代码 类 似 于 下 面 这 村 
class SomeCustomException(Exception): pass 


工作 量 真 的 不 大 。( 当然 ， 如 果 你 愿意 ， 也 可 在 自 定义 异常 类 中 添加 方法 。) 
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8.3 捕获 异常 


前 面 说 过 ， 异 常 比较 有 趣 的 地 方 是 可 对 其 进行 处 理 ， 通 常 称 之 为 捕获 异常 。 为 此 ， 可 使 用 
try/except 语 句 。 假 设 你 创建 了 一 个 程序 ， 让 用 户 输入 两 个 数 ， 再 将 它们 相 除 ， 如 下 所 示 : 


x = int(input('Enter the first number: ')) 
y = int(input('Enter the second number: ')) 
print(x / y) 
这 个 程序 运行 正常 ， 直 到 用 户 输入 的 第 二 个 数 为 零 。 
Enter the first number: 10 
Enter the second number: 0 
Traceback (most recent call last): 
File "exceptions.py", line 3, in ? 

print(x / y) 
ZeroDivisionError: integer division or modulo by zero 
为 捕获 这 种 异常 并 对 错误 进行 处 理 ( 这 里 只 是 打印 一 条 对 用 户 更 友好 的 错误 消息 )， 可 像 下 

面 这 样 重 写 这 个 程序 : 

try: 

x = int(input('Enter the first number: ')) 

y = int(input('Enter the second number: ')) 

print(x / y) 
except ZeroDivisionError: 

print("The second number can't be zero!") 


使 用 一 条 if 语句 来 检查 y 的 值 好 像 简 单 些 ， 就 本 例 而 言 ， 这 可 能 也 是 更 佳 的 解决 方案 。 然 而 ， 
如 果 这 个 程序 执行 的 除法 运算 更 多 ， 则 每 个 除法 运算 都 需要 一 条 if 语句 ， 而 使 用 try/except 的 话 
只 需要 一 个 错误 处 理 程序 。 























注意 ”异常 从 函数 向 外 传播 到 调用 函数 的 地 方 。 如 果 在 这 里 也 没有 被 捕获 ， 异 常 将 向 程序 的 最 
顶层 传播 。 这 意味 着 你 可 使 用 try/except 来 捕获 他 人 所 编写 函数 引发 的 异常 。 有 关 这 方面 
的 详细 信息 ， 请 参阅 8.4 节 。 


8.3.1 不 用 提供 参数 


捕获 异常 后 ， 如 果 要 重新 引发 它 〈 即 继续 向 上 传播 )， 可 调用 raise 且 不 提供 任何 参数 ( 也 可 
显 式 地 提供 捕获 到 的 异常 ， 参 见 8.3.4 六 )。 

为 说 明 这 很 有 用 ,来 看 一 个 能 够 “抑制 ”异常 ZeroDivisionError 的 计算 器 类 。 如 果 启 用 了 这 
种 功能 , 计算 带 将 打印 一 条 错误 消息 ,而 不 让 异常 继续 传播 。 在 与 用 户 交互 的 会 话 中 使 用 这 个 计 
算 器 时 ， 抑 制 异 常 很 有 用 ; 但 在 程序 内 部 使 用 时 ， 引 发 异常 是 更 佳 的 选择 ( 此 时 应 关闭 “抑制 ” 
功能 )。 下 面 是 这 样 一 个 类 的 代码 : 
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class MuffledCalculator: 
muffled = False 
def calc(self, expr): 
try: 
return eval(expr) 
except ZeroDivisionError: 
if self.muffled: 
print('Division by zero is illegal') 
else: 
raise 


注意 发 生 除 替 行为 时 ， 如 果 启 用 了 “抑制 ”功能 ,方法 calc 将 ( 隐 式 地 ) 返回 None。 换 而 言 
之 ， 如 果 启 用 了 “抑制 ”功能 ， 就 不 应 依赖 返回 值 。 


下 面 的 示例 演示 了 这 个 类 的 用 法 ( 包括 启用 和 关闭 了 抑制 功能 的 情形 ): 


>>> calculator = MuffledCalculator() 
>>> calculator.calc('10 / 2') 
Sx 
>>> calculator.calc('10 / 0') # 关闭 了 抑制 功能 
Traceback (most Tecent call last): File "<stdin>", line 1, in ? 
File "MuffledCalculator.py", line 6, in calc 
return eval(expr) 
File "<string>", line 0, in ? 
ZeroDivisionError: integer division or modulo by zero 
>>> calculator.muffled = True 
>>> calculator.calc('10 / 0') 
Division by zero is illegal 


如 你 所 见 ， 关 闭 抑制 功能 时 ， 捕 获 了 异常 ZeroDivisionError ， 但 继续 向 上 传播 它 。 

如 果 无 法 处 理 异 常 ， 在 except 子 句 中 使 用 不 带 参数 的 raise 通 常 是 不 错 的 选择 ， 但 有 时 你 可 
能 想 引 发 别 的 异常 。 在 这 种 情况 下 ， 导 致 进入 except 子 句 的 异常 将 被 作为 异常 上 下 文 存储 起 来 ， 
并 出 现在 最 终 的 错误 消息 中 ， 如 下 所 示 : 


>>> try: 
1/0 
. Except ZeroDivisionError: 
raise ValueError 
































Traceback (most recent call last): 
File "<stdin>", line 2, in <module> 
ZeroDivisionError: division by zero 


在 处 理 上 述 异 常 时 ， 引 发 了 另 一 个 异常 : 


Traceback (most recent call last): 
File "<stdin>", line 4, in <module> 
ValueError 


你 可 使 用 raise ... from .. .语句 来 提供 自己 的 异常 上 下 文 ， 也 可 使 用 None 来 禁用 上 下 文 。 
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>>% try: 
1/0 
. except ZeroDivisionError: 
raise ValueError from None 


Traceback (most recent call last): 
File "<stdin>", line 4, in <module> 
ValueError 


8.3.2 ”多 个 except 子 句 
如 果 你 运行 前 一 节 的 程序 ， 并 在 提示 时 输入 一 个 非 数字 值 ， 将 引发 另 一 种 异常 。 


Enter the first number: 10 
Enter the second number: "Hello, world!" 
Traceback (most recent call last): 
File "exceptions.py", line 4, in ? 
print(x / y) 
TypeError: unsupported operand type(s) for /: 'int' and "str' 











由 于 该 程序 中 的 except 子 句 只 捕获 ZeroDivisionError 异 常 , 这 种 异常 将 成 为 漏网 之 鱼 ， 导致 
程序 终止 。 为 同时 捕获 这 种 异常 ， 可 在 try/except 语 句 中 再 添加 一 个 except 子 句 。 


try: 
x 





























int(input('Enter the first number: ')) 
int(input('Enter the second number: ')) 
print(x / y) 
except ZeroDivisionError: 
print("The second number can't be zero!") 
except TypeError: 
print("That wasn't a number, was it?") 


现在 使 用 if 语句 来 处 理 将 更 加 困难 。 如 何 检查 一 个 值 能 否 用 于 除法 运算 呢 ? 方法 有 很 多 , 但 
最 佳 的 方法 无 疑 是 尝试 将 两 个 值 相 除 ， 看 看 是 否 可 行 。 

另外 , 注意 到 异常 处 理 并 不 会 导致 代码 混乱 ,而 添加 大 量 的 if 语 句 来 检查 各 种 可 能 的 错误 状 
态 将 导致 代码 的 可 读 性 极 差 。 




















8.3.3 ”一 箭 双 肝 

















如 果 要 使 用 一 个 except 子 句 捕获 多 种 异常 ， 可 在 一 个 元 组 中 指定 这 些 异 常 ， 如 下 所 示 : 





try: 





x = int(input('Enter the first number: ')) 
y = int(input('Enter the second number: ')) 
print(x / y) 

except (ZeroDivisionError, TypeError, NameError): 
print('Your numbers were bogus ...') 


在 上 述 代 码 中 ,如 果 用 户 输入 字符 串 、 其 他 非 数字 值 或 输入 的 第 二 个 数 为 零 , 都 将 打印 同样 
的 错误 消息 。 当 然 ， 仅 仅 打印 错误 消息 帮助 不 大 。 另 一 种 解决 方案 是 不 断 地 要 求 用 户 输入 数字 ， 
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直到 能 够 执行 除法 运算 为 止 ，8.3.6 节 将 介绍 如 何 这 样 做 。 
在 except 子 名 中 ,异常 两 边 的 圆 括 号 很 重要 。 一 种 常见 的 错误 是 省 略 这 些 括 号 ,这 可 能 导致 
你 不 想 要 的 结果 ， 其 中 的 原因 请 参阅 下 一 节 。 


8.3.4 捕获 对 象 


要 在 except 子 句 中 访问 异常 对 象 本 身 ， 可 使 用 两 个 而 不 是 一 个 参数 。( 请 注意 ， 即 便 是 在 你 
捕获 多 个 异常 时 ， 也 只 向 except 提 供 了 一 个 参数 个 元 组 。 ) 需要 让 程序 继续 运行 并 记录 错 
误 (可 能 只 是 向 用 户 显 示 ) 时 ,这 很 用。 下 面 的 示例 程序 打印 发 生 的 异常 并 继续 运行 : 


try: 
x = int(input('Enter the first number: ')) 
y = int(input('Enter the second number: ')) 
print(x / y) 

except (ZeroDivisionError, TypeError) as e: 
print(e) 


在 这 个 小 程序 中 ，except 子 句 也 捕获 两 种 异常 ， 但 由 于 你 同时 显 式 地 捕获 了 对 象 本 身 ， 因 此 


可 将 其 打印 出 来 ， 让 用 户 知 道 发 生 了 什么 情况 。8.3.6 节 将 介绍 这 种 技术 的 另 一 种 更 有 用 的 用 途 。 










































































8.3.5 一网打尽 
即使 程序 处 理 了 好 几 种 异常 , 还 是 可 能 有 一 些 漏网 之 鱼 。 例 如 ,对 于 前 面 执 行 除法 运算 的 程 


序 ， 如 果 用 户 在 提示 时 不 输入 任何 内 容 就 按 回 车 键 , 将 出 现 一 条 错误 消息 , 还 有 一 些 相关 问题 出 
在 什么 地 方 的 信息 ( 栈 跟 踪 )， 如 下 所 示 : 


Traceback (most recent call last): 











ValueError: invalid literal for int() with base 10: "' 

这 种 异常 未 被 try/except 语 句 捕 获 ， 这 理所当然 ， 因 为 你 没有 预测 到 这 种 问题 ， 也 没有 采取 
相应 的 措施 。 在 这 些 情 况 下 ， 与 其 使 用 并 非 要 捕获 这 些 异 常 的 try/except 语 句 将 它们 隐藏 起 来 ， 
还 不 如 让 程序 马上 骨 泪 ， 因 为 这 样 你 就 知道 什么 地 方 出 了 问题 。 

然而 ， 如 果 你 就 是 要 使 用 一 段 代 码 捕获 所 有 的 异常 ， 只 需 在 except 语 句 中 不 指定 任何 异常 类 
即 可 。 


try: 
x = int(input('Enter the first number: ')) 
y = int(input('Enter the second number: ')) 
print(x / y) 

except: 
print('Something wrong happened ...') 


现在 ， 用 户 想 怎么 做 都 可 以 。 


Enter the first number: "This" is *completely* illegal 123 
Something wrong happened ... 


像 这 样 捕 绪 所 有 的 异常 很 危险 , 因为 这 不 仅 会 隐藏 你 有 心理 准备 的 错误 ,还 会 隐藏 你 没有 考 
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虑 过 的 错误 。 这 还 将 捕获 用 户 使 用 Ctrl + CC 终止 执行 的 企图 、 调 用 也 数 sys .exit 来 终止 执行 的 企图 
等 。 在 大 多 数 情况 下 ， 更 好 的 选择 是 使 用 except Exception as e 并 对 异常 对 象 进行 检查 。 这 样 做 
将 让 不 是 从 Exception 派 生 而 来 的 为 数 不 多 的 异常 成 为 漏网 之 鱼 ， 其 中 包括 SystemExit 和 
KeyboardInterrupt ， 因 为 它们 是 从 BaseException ( Exception 的 超 类 ) 派生 而 来 的 。 


8.3.6 ”万事大吉 时 


在 有 些 情况 下 , 在 没有 出 现 异常 时 执行 一 个 代码 块 很 有 用 。 为 此 , 可 像 条 件 语 句 和 循环 一 样 ， 
给 try/except 语 句 添 加 一 个 else 子 句 。 
try: 























ee 
























































print('A simple task') 
except: 
print('What? Something went wrong?') 
else: 
print('Ah ... It went as planned.') 


如 果 你 运行 这 些 代 码 ， 输 出 将 如 下 : 


A simple task 
Ah ... It went as planned. 


通过 使 用 else 子 句 ， 可 实现 8.3.3 节 所 说 的 循环 。 


while True: 

try: 
x = int(input('Enter the first number: ')) 
y = int(input('Enter the second number: ')) 
value =x/y 
print('x / y is', value) 

except: 
print('Invalid input. Please try again.') 

else: 
break 


在 这 里 ， 仅 当 没 有 引发 异常 时 ， 才 会 跳出 循环 ( 这 是 由 else 子 名 中 的 break 语 句 实现 的 )。 换 
而 言 之 ， 只 要 出 现 错误 ， 程 序 就 会 要 求 用 户 提供 新 的 输入 。 下 面 是 这 些 代码 的 运行 情况 : 


Enter the first number: 1 

Enter the second number: 0 
Invalid input. Please try again. 
Enter the first number: “foo" 
Enter the second number: 'bar' 
Invalid input. Please try again. 
Enter the first number: baz 
Invalid input. Please try again. 
Enter the first number: 10 























Enter the second number: 2 
x/yiss5 

前 面 说 过 , 一 种 更 佳 的 替代 方案 是 使 用 空 的 except 子 句 来 捕获 所 有 属于 类 Exception (或 其 子 
类 ) 的 异常 。 你 不 能 完全 确定 这 将 捕获 所 有 的 异常 ， 因 为 try/except 语 句 中 的 代码 可 能 使 用 旧式 
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的 字符 串 异常 或 引发 并 非 从 Exception 派 生 而 来 的 异常 。 然 而 ， 如 果 使 用 except Exception as e， 
就 可 利用 8.3.4 节 介绍 的 技巧 在 这 个 小 型 除法 程序 中 打印 更 有 用 的 错误 消息 。 


while True: 
try: 
x = int(input('Enter the first number: ')) 
y = int(input('Enter the second number: ')) 
value =x/y 
print('x / y is', value) 
except Exception as e: 
print('Invalid input:', e) 
print('Please try again') 
else: 
brea 
下 面 是 这 个 程序 的 运行 情况 : 
Enter the first number: 1 
Enter the second number: 0 
Invalid input: integer division or modulo by zero 
Please try again 
Enter the first number: 'x' Enter the second number: 'y' 
Invalid input: unsupported operand type(s) for /: 'str' and 
Please try again 
Enter the first number: quuux 
Invalid input: name 'quuux' is not defined 


Please try again 
Enter the first number: 10 


Enter the second number: 2 
x/yis5 




















' 1 


str 




















8.3.7 最 后 
最 后 , 还 有 finally 子 句 , 可 用 于 在 发 生 异常 时 执行 清理 工作 。 这 个 子 句 是 与 try 子 句 配 套 的 。 


x = None 

try: 
x=1/0 

finally: 
print('Cleaning up ...') 
del x 


在 上 述 示例 中 ， 不 管 try 子 句 中 发 生 什么 异常 ， 都 将 执行 finally 子 句 。 为 何在 try 子 句 之 前 
初始 化 x 呢 ?” 因 为 如 果 不 这 样 做 ，ZeroDivisionError 将 导致 根本 没有 机 会 给 它 赋值 ， 进 而 导致 在 
finally 子 句 中 对 其 执行 del 时 引发 未 捕获 的 异常 。 

如 果 运 行 这 个 程序 ， 它 将 在 执行 清理 工作 后 崩溃 。 

Cleaning up ... 

Traceback (most recent call last): 

File "C:\python\div.py", line 4, in ? 
x=1/0 
ZeroDivisionError: integer division or modulo by zero 
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虽然 使 用 del 来 删除 变量 是 相当 思春 的 清理 措施 , 但 finally 子 名 非常 适合 用 于 确保 文件 或 网 
络 套 接 字 等 得 以 关闭 ， 这 将 在 第 14 章 详细 介绍 。 
也 可 在 一 条 语句 中 同时 包含 try、except 、finally 和 else (或 其 中 的 3 个 )。 


try: 
1/0 
except NameError: 
print("Unknown variable") 
else: 
print("That went well!") 
finally: 
print("Cleaning up.") 











8.4 ”异常 和 函数 


异常 和 函数 有 着 天 然 的 联系 。 如果 不 处 理 函 数 中 引发 的 异常 , 它 将 向 上 传播 到 调用 函数 的 地 
方 。 如 果 在 那里 也 未 得 到 处 理 ， 异 常 将 继续 传播 ， 直 至 到 达 主 程序 ( 全 局 作用 域 )。 如 果 主 程序 
中 也 没有 异常 处 理 程序 ， 程 序 将 终止 并 显示 栈 跟踪 消息 。 来 看 一 个 示例 : 


>>> def faulty(): 
raise Exception('Something is wrong') 

















>>> def ignore exception(): 
faulty() 


>>> def handle exception(): 
try: 
faulty() 
except: 

print('Exception handled') 





>>> ignore exception() 
Traceback (most recent call last): 
File '<stdin>', line 1, in ? 
File '<stdin>', line 2, in ignore exception 
File '<stdin>', line 2, in faulty 
Exception: Something is wrong 
>>> handle exception() 
Exception handled 


如 你 所 见 ，faulty 中 引发 的 异常 依次 从 faulty 和 ignore exception 向 外 传播 ,最终 导致 显示 
一 条 栈 跟踪 消息 。 调 用 handle_exception 时 ， 异 常 最 终 传播 到 handle_exception， 并 被 这 里 的 
try/except 语 句 处 理 。 








8.5 异常 之 禅 


异常 处 理 并 不 是 很 复杂 。 如 果 你 知道 代码 可 能 引发 某 种 异常 ,上 且 不 希望 出 现 这 种 异常 时 程序 
终止 并 显示 栈 跟踪 消息 ， 可 添加 必要 的 try/except 或 try/finally 语 句 (或 结合 使 用 ) 来 处 理 它 。 
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有 时 候 , 可 使 用 条 件 语句 来 达成 异常 处 理 实现 的 目标 , 但 这 样 编写 出 来 的 代码 可 能 不 那么 自 
然 ， 可 读 性 也 没 那么 高 。 另 一 方面 ， 有 些 任务 使 用 if/else 完 成 时 看 似 很 自然 ， 但 实际 上 使 用 
try/except 来 完成 要 好 得 多 。 下 面 来 看 两 个 示例 。 
假设 有 一 个 字典 ,你 要 在 指定 的 键 存在 时 打印 与 之 相关 联 的 值 ， 否 则 什么 都 不 做 。 实 现 这 种 
功能 的 代码 可 能 类 似 于 下 面 这 样 : 
def describe person(person): 
print('Description of', person['name']) 
print('Age:', person['age']) 
if 'occupation' in person: 
print('Occupation:', person['occupation']) 
如 果 你 调用 这 个 函数 ， 并 向 它 提 供 一 个 包含 姓名 Throatwobbler Mangrove 和 年 龄 42( 但 不 包 
含 职业 ) 的 字典， 输出 将 如 下 : 
Description of Throatwobbler Mangrove 
Age: 42 
如 果 你 在 这 个 字典 中 添加 职业 camper， 输 出 将 如 下 : 
Description of Throatwobbler Mangrove 
Age: 42 
Occupation: camper 
这 段 代码 很 直观 ， 但 效率 不 高 〈 虽 然 这 里 的 重点 是 代码 简洁 )， 因 为 它 必须 两 次 查找 
'occupation ' 键 : 一 次 检查 这 个 键 是 否 存在 ( 在 条 件 中 )， 另 一 次 获取 这 个 键 关 联 的 值 ， 以 便 将 
其 打印 出 来 。 下 面 是 另 一 种 解决 方案 : 
def describe person(person): 
print('Description of', person['name']) 
print('Age:', person['age']) 
try: 
print('Occupation:', person['occupation']) 
except KeyError: pass 
在 这 里 ， 函 数 直接 假设 存在 'occupation' 键 。 如 果 这 种 假设 正确 ， 就 能 省 点 事 : 直接 获取 并 
打印 值 ， 而 无 需 检 查 这 个 键 是 否 存在 。 如 果 这 个 键 不 存在 ， 将 引发 KeyError 异 常 ， 而 except 子 名 
将 捕获 这 个 异常 。 
你 可 能 发 现 ， 检 查 对 象 是 否 包含 特定 的 属性 时 ，try/except 也 很 用。 例如， 假设 你 要 检查 
一 个 对 象 是 否 包含 属性 write， 可 使 用 类 似 于 下 面 的 代码 : 


try: 

































































obj.write 
except AttributeError: 
print('The object is not writeable') 
else: 
print('The object is writeable') 


在 这 里 , try 子 句 只 是 访问 属性 write, 而 没有 使 用 它 来 做 任何 事情 。 如 果 引 发 了 AttributeError 
异常 ， 说 明 对 象 没有 属性 write， 否 则 就 说 明 有 这 个 属性 。 这 种 解决 方案 可 替代 7.2.9 节 介绍 的 使 
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用 getatti 的 解决 方案 ， 而 且 更 自然 。 具 体 使 用 哪 种 解决 方案 ， 在 很 大 程度 上 取决 于 个 人 喜好 。 
请 注意 , 这 里 在 效率 方面 的 提高 并 不 大 ( 实际 上 是 微乎其微 ) 一 般 而 言 ,除非 程序 存在 性 能 











方面 的 问题 ， 否 则 不 应 过 多 考虑 这 样 的 优化 。 关 键 是 在 很 多 情况 下 ， 相 比 于 使 用 if/else， 使 用 











try/except 语 句 更 自然 , 也 更 符合 Python 的 风格 。 因 此 你 应 养 成 尽 可 能 使 用 try/except 语 句 的 习惯 ?。 


8.6 不 那么 异常 的 情况 


如 果 你 只 想 发 出 警告 ,指出 情况 偏离 了 正轨 ， 可 使 用 模块 warnings 中 的 函数 warn。 


>>> from warnings import warn 


>>> warn("I've got a bad feeling about this.") 
_ main :1: UserWarning: I've got a bad feeling about this. 


>>> 





警告 只 显示 一 次 。 如 果 再 次 运行 最 后 一 行 代码 ， 什 么 事情 都 不 会 发 生 。 
如 果 其 他 代码 在 使 用 你 的 模块 ， 可 使 用 模块 warnings 中 的 函数 filterwarnings 来 抑制 你 发 出 
的 警告 〈 或 特定 类 型 的 警告 )， 并 指定 要 采取 的 措施 ， 如 "error" 或 "ignore"。 


>>> from warnings import filterwarnings 











>>> filterwarnings("ignore") 
>>> warn("Anyone out there?") 
>>> filterwarnings("error") 


>>> warn("Something is very wrong!") 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

UserWarning: Something is very wrong! 


如 你 所 见 ， 引 发 的 异常 为 Userwarning。 发 出 警告 时 ， 可 指定 将 引发 的 异常 〈《 即 警告 类 别 )， 
但 必须 是 warning 的 子 类 。 如 果 将 警告 转换 为 错误 ， 将 使 用 你 指定 的 异常 。 另 外 ， 还 可 根据 异常 

















来 过 滤 掉 特定 类 型 的 警告 。 


>>> filterwarnings("error") 





>>> warn("This function is really ol1d...", DeprecationWarning) 


Traceback (most recent call las 


t): 


File "<stdin>", line 1, in <module> 
DeprecationWarning: This function is really old... 


>>> filterwarnings("ignore", ca 


tegory=DeprecationWarning) 


>>> warn("Another deprecation warning.", DeprecationWarning) 


>>> warn("Something else.") 
Traceback (most recent call las 











上 


File "<stdin>", line 1, in <module> 


UserWarning: Something else. 





除 上 述 基本 用 途 外 ,模块 warnings 还 提供 了 一 些 高 级 功能 。 如 果 你 对 此 感 兴趣 ,请 参阅 库 参 


考 手 册 。 





人 @ 海军 少将 Grace Hopper 有 人 句 至 理 名 言 : 请 求 宽 恕 比 获 得 允许 更 容易 。 这 解释 了 Python 偏向 于 使 用 try/except 的 原 
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这 种 策略 可 总 结 为 习 语 “ 闭 眼 就 跳 ” 本 接 去 做 ， 有 问题 再 处 理 ， 而 不 是 预先 做 大 量 的 检查 。 
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8.7 “小结 


本 章 介 绍 了 如 下 重要 主题 。 

口 异常 对 象 : 异常 情况 ( 如 发 生 错 误 ) 是 用 异常 对 象 表 示 的 。 对 于 异常 情况 ， 有 多 种 处 理 

方式 ; 如 果 和 忽略 ， 将 导致 程序 终止 。 

口 引发 异常 : 可 使 用 raise 语 句 来 引发 异常 。 它 将 一 个 异常 类 或 异常 实例 作为 参数 ， 但 你 也 
可 提供 两 个 参数 ( 异常 和 错误 消息 ), 如 果 在 except 子 句 中 调用 raise 时 没有 提供 任何 参数 ， 
已 将 重新 引发 该 子 句 捕获 的 异常 。 

口 自 定 义 的 异常 类 : 你 可 通过 从 Exception 派 生来 创建 自 定义 的 异常 。 

口 捕获 异常 : 要 捕获 异常 ， 可 在 try 语 句 中 使 用 except 子 句 。 在 except 子 句 中 ， 如 果 没 有 指 
定 异常 类 ,将 捕获 所 有 的 异常 。 你 可 指定 多 个 异常 类 ,方法 是 将 它们 放 在 元 组 中 。 如 果 
向 except 提 供 两 个 参数 ， 第 二 个 参数 将 关联 到 异常 对 象 。 在 同一 条 try/except 语 句 中 ， 可 
包含 多 个 except 子 句 ， 以 便 对 不 同 的 异常 采取 不 同 的 措施 。 

口 else 子 句 : 除 except 子 名 外， 你 还 可 使 用 else 子 句 ， 它 在 主 try 块 没有 引发 异常 时 执行 。 

口 finally: 要 确保 代码 块 ( 如 清理 代码 ) 无 论 是 否 引发 异常 都 将 执行 ,可 使 用 try/finally， 

并 将 代码 块 放 在 finally 子 句 中 。 

口 异常 和 函数 : 在 函数 中 引发 异常 时 , 异常 将 传播 到 调用 函数 的 地 方 ( 对 方法 来 说 亦 如 此 )。 

口 警告 : 警告 类 似 于 异常 ,但 (通常 ) 只 打印 一 条 错误 消息 。 你 可 指定 警告 类 别 ， 它 们 是 


































































































Warning 的 子 类 。 
= 立 F ~ 之 米 
8.7.1 ”本 章 介 绍 的 新 函数 
函数 描述 
warnings.filterwarnings(action,category=Warning, ...) 用 于 过 小 警告 
warnings.warn(message, category=None) 用 于 发 出 警告 




















8.7.2 预告 


你 可 能 认为 本 章 的 内 容 很 特别 ， 但 下 一 章 才 真 的 是 魔法 一 一 准确 地 说 ， 是 近乎 魔法 。 
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在 Python 中 ， 有 些 名 称 很 特别 ， 开 头 和 结尾 都 是 两 个 下 划 线 。 你 在 本 书 前 面 已 经 见 过 一 些 ， 
如 ”future 。 这 样 的 拼写 表示 名 称 有 特殊 意义 ， 因 此 绝 不 要 在 程序 中 创建 这 样 的 名 称 。 在 这 样 
的 名 称 中 ,很 大 一 部 分 都 是 魔法 ( 特殊 ) 方法 的 名 称 。 如 果 你 的 对 象 实 现 了 这 些 方 法 ,它们 将 在 
特定 情况 下 (具体 是 哪 种 情况 取决 于 方法 的 名 称 ) 被 Python 调 用 ， 而 几乎 不 需要 直接 调用 。 

本 章 讨 论 几 个 重要 的 魔法 方法 ， 其 中 最 重要 的 是 _init ”以 及 一 些 处 理 元 素 访 问 的 方法 ( 它 
们 证 你 能 够 创建 序列 或 映射 ) 本章 还 将 讨论 两 个 相关 的 主题 :特性 ( property ) 和 迭代 器 (iterator )。 
前 者 以 前 是 通过 魔法 方法 处 理 的 , 但 现在 通过 函数 property 处 理 , 而 后 者 使 用 魔法 方法 _iter ， 
这 让 其 可 用 于 for 循 环 中 。 在 本 章 最 后 ， 将 通过 一 个 内 容 丰 富 的 示例 演示 如 何 使 用 已 有 知识 来 解 
决 非常 凉 手 的 问题 。 


9.1 如 果 你 使 用 的 不 是 Python 3 


在 Python 2.2 中 ，Python 对 象 的 工作 方式 有 了 很 大 的 变化 。 这 种 变化 带 来 了 多 个 方面 的 影响 。 
这 些 影响 对 Python 编程 新 手 来 说 大 都 不 重要 , 但 有 一 点 需要 注意 : 即便 你 使 用 的 是 较 新 的 Python 2 
版 本 ， 有 些 功能 〈 如 特性 和 函数 super ) 也 不 适用 于 旧式 类 。 要 让 你 的 类 是 新 式 的 ， 要么 在 模块 
开头 包含 赋值 语句 “metaclass ”= type (这 在 第 7 章 提 到 过 )， 要 么 直接 或 间接 地 继承 内 置 类 
object 或 其 他 新 式 类 。 请 看 下 面 两 个 类 : 


class NewStyle(object): 
more Code here 
















































































class OldStyle: 
more Code here 


在 这 两 个 类 中 ，NewStyle 是 一 个 新 式 类 ， 而 01dStyle 是 一 个 旧式 类 。 如 果 文 件 开 头 包 含 赋值 
语句 _metaclass = type， 这 两 个 类 都 将 是 新 式 类 。 














注意 也 可 在 类 的 作用 域内 给 变量 metaclass 赋值， 但 这 样 做 只 设置 当前 类 的 元 类 
(metaclass )。 元 类 是 其 他 类 所 属 的 类 ， 这 是 一 个 非常 复杂 的 主题 。 
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在 本 书 中 ， 我 并 没有 在 所 有 示例 中 都 显 式 地 设置 元 类 或 继承 object。 然 而 ， 如 果 你 的 程序 
无 需 与 旧版 Python 兼容 ， 建 议 将 所 有 类 都 定义 为 新 式 类 ， 并 使 用 将 在 9.2.3 节 介绍 的 函数 super 
等 功能 。 

请 注意 ， 在 Python 3 中 没有 旧式 类 ， 因 此 无 需 显 式 地 继承 object 或 将 _metaclass_ 设 置 为 
type。 所 有 的 类 都 将 隐 式 地 继承 object。 如 果 没 有 指定 超 类 ， 将 直接 继承 它 ， 否 则 将 间接 地 继 
承 它 。 


9.2 ”构造 函数 


我 们 要 介绍 的 第 一 个 魔法 方法 是 构造 函数 。 你 可 能 从 未 听 说 过 构造 函数 ( constructor ), 它 其 
实 就 是 本 书 前 面 一 些 示 例 中 使 用 的 初始 化 方法 ， 只 是 命名 为 _init_。 然 而 ,构造 函数 不 同 于 普 
通 方法 的 地 方 在 于 ， 将 在 对 象 创建 后 自动 调用 它们 。 因 此 ， 无 需 采 用 本 书 前 面 一 直 使 用 的 做 法 : 


>>> f = FooBar() 
>>> f.init() 


构造 函数 让 你 只 需 像 下 面 这 样 做 : 

>>> f = FooBar() 

在 Python 中 , 创建 构造 函数 很 容易 , 只 需 将 方法 init 的 名 称 从 普通 的 init 改 为 魔法 版 _init__ 
即 可 o 


class FooBar: 
def init (self): 
self.somevar = 42 










































































>>> f = FooBar() 
>>> f.somevar 





42 
到 目前 为 止 一 切 顺 利 。 但 你 可 能 会 问 ， 如果 给 构造 函数 添加 几 个 参数 ,结果 将 如 何 呢 ? 请 看 
下 面 的 代码 : 


class FooBar: 
def init (self, value=42): 
self.somevar = value 











你 认为 该 如 何 使 用 这 个 构造 函数 呢 ” 由 于 参数 是 可 选 的 , 你 可 以 当 什么 事 都 没 发 生 , 还 像 原 
来 那样 做 。 但 如 果 要 指定 这 个 参数 (或 者 说 如 果 这 个 参数 不 是 可 选 的 ) 呢 ? 你 肯定 猜 到 了 ,不 过 
这 里 还 是 演示 一 下 。 

>>> f = FooBar('This is a constructor argument') 


>>> f.somevar 
‘This is a constructor argument 


在 所 有 的 Python 魔 法 方法 中 ，_init_ 绝 对 是 你 用 得 最 多 的 。 
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注意 ”Python 提供 了 魔法 方法 _del ， 也 称 作 析 构 函数 ( destructor )。 这 个 方法 在 对 象 被 销毁 
(作为 垃圾 被 收集 ) 前 被 调用 ， 但 鉴于 你 无 法 知道 准确 的 调用 时 间 ， 建 议 尽 可 能 不 要 使 
用 del 。 


9.2.1 重 与 普通 方法 和 特殊 的 构造 函数 


第 7 章 介绍 了 继承 。 每 个 类 都 有 一 个 或 多 个 超 类 ,并 从 它们 那里 继承 行为 。 对 类 B 的 实例 调用 
方法 (或 访问 其 属性 ) 时 ,如 果 找 不 到 该 方法 (或 属性 ), 将 在 其 超 类 A 中 查找 。 请 看 下 面 两 个 类 : 
class A: 


def hello(self): 
print("Hello, I'm A.") 

















class B(A): 
pass 


类 A 定义 了 一 个 名 为 hello 的 方法 ， 并 被 类 B 继 承 。 下 面 的 示例 演示 了 这 些 类 是 如 何 工作 的 : 
>>> a = A() 

>>> b = B() 

>>> a.hello() 

Hello, I'm A. 

>>> b.hello() 

Hello, I'm A. 


由 于 类 B 自 己 没 有 定义 方法 hello, 因此 对 其 调用 方法 hello 时 , 打印 的 是 消息 "Hello, I'mA."。 
要 在 子 类 中 添加 功能 , 一 种 基本 方式 是 添加 方法 。 人 然而, 你 可 能 想 重 写 超 类 的 某 些 方法 ,以 
定制 继承 而 来 的 行为 。 例 如 ，B 可 以 重 写 方法 hello， 如 下 述 修 改 后 的 类 B 定 义 所 示 : 
class B(A): 
def hello(self): 
print("Hello, I'm B.") 
这 样 修改 定义 后 ，b.hello() 的 结果 将 不 同 。 


>>> b = B() 
>>> b.hello() 
Hello, I'm B. 


重 写 是 继承 机 制 的 一 个 重要 方面 , 对 构造 函数 来 说 尤其 重要 。 构造 函数 用 于 初始 化 新 建 对 象 
的 状态 ， 而 对 大 多 数 子 类 来 说 , 除 超 类 的 初始 化 代码 外 ,还 需要 有 自己 的 初始 化 代码 。 虽 然 所 有 
方法 的 重 写 机 制 都 相同 ,但 与 重 写 普通 方法 相 比 , 重 写 构造 函数 时 更 有 可 能 遇 到 一 个 特别 的 问题 : 
重 写 构 造 函 数 时 ， 必 须 调用 超 类 ( 继承 的 类 ) 的 构造 函数 ， 否 则 可 能 无 法 正确 地 初始 化 对 象 。 
请 看 下 面 的 Bird 类 : 


class Bird: 
def init (self): 
self.hungry = True 
def eat(self): 




















Ne 
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if self.hungry: 
print('Aaaah ...') 
self.hungry = False 
else: 
print('No, thanks!') 


这 个 类 定义 了 所 有 乌 都 具备 的 一 种 基本 能 力 : 进食 。 下 面 的 示例 演示 了 如 何 使 用 这 个 类 : 


>>> b = Bird() 
>>> b.eat() 
Aaaah ... 

>>> b.eat() 
No, thanks! 


从 这 个 示例 可 知 ， 马 进食 后 就 不 再 饥 俄 。 下 面 来 看 子 类 songBird， 它 新 增 了 鸣叫 功能 。 


class SongBird(Bird): 
def init (self): 
self.sound = “9Squawkl 
def sing(self): 
print(self.sound) 


SongBird 类 使 用 起 来 与 Bird 类 一 样 容易 : 


>>> sb = SongBird() 
>>> sb.sing() 
Squawk! 


SongBird 是 Bird 的 子 类 ， 继 承 了 方法 eat ， 但 如 果 你 尝试 调用 它 ， 将 发 现 一 个 问题 。 


>>> sb.eat() 
Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
File "birds.py", line 6, in eat 
if self.hungry: 
AttributeError: SongBird instance has no attribute “hungry 


异常 清楚 地 指出 了 问题 出 在 什么 地 方 : SongBird 没 有 属性 hungry。 为 何 会 这 样 呢 ? 因为 在 
SongBird 中 重 写 了 构造 函数 ， 但 新 的 构造 函数 没有 包含 任何 初始 化 属性 hungry 的 代码 。 要 消除 这 
种 错误 ，SongBird 的 构造 函数 必须 调用 其 超 类 (Bird ) 的 构造 函数 ， 以 确保 基本 的 初始 化 得 以 执 
行 。 为 此 ， 有 两 种 方法 : 调用 未 关联 的 超 类 构造 函数 ， 以 及 使 用 苑 数 super。 接 下 来 的 两 节 将 介 
绍 这 两 种 方法 。 


9.2.2 ”调用 未 关联 的 超 类 构造 函数 


本 节 介 绍 的 方法 主要 用 于 解决 历史 遗留 问题 。 在 较 新 的 Python 版 本 中 ， 显 然 应 使 用 函数 
super (这 将 在 下 一 节 讨 论 )。 然 而 ， 很 多 既 有 代码 使 用 的 都 是 本 节 介 绍 的 方法 ， 因 此 你 必须 对 
其 有 所 了 解 。 另 外 ， 这 种 方法 也 极 具 启 迪 意义 ， 淋 沉 尽 致 地 说 明了 关联 方法 和 未 关联 方法 之 间 
的 差别 。 

言 归 正 传 。 如 果 你 觉得 本 节 的 标题 有 点 吓人 ， 请 放松 心情 。 调 用 超 类 的 构造 函数 实际 上 很 容 
易 ， 也 很 有 和 用。 下 面 先 给 出 前 一 节 末 尾 问 题 的 解决 方案 。 




























































































148 第 9 章 魔法 方法 、 特 性 和 和 迭代 器 





class SongBird(Bird): 
def init (self): 
Bird. init (self) 
self.sound = “Squawkl 
def sing(self): 
print(self.sound) 


在 SongBird 类 中 , 只 添加 了 一 行 , 其 中 包含 代码 Bird. init (self)。 先 来 证 明 这 确实 管用 ， 
再 解释 这 到 底 意味 着 什么 。 


>>> sb = SongBird() 
>>> sb.sing() 
Squawk! 

>>> sb.eat() 

Aaaah ... 

>>> sb.eat() 

No, thanks! 


这 样 做 为 何 管用 呢 ? 对 实例 调用 方法 时 , 方法 的 参数 self 将 自动 关联 到 实例 ( 称 为 关联 的 方 
法 )， 这 样 的 示例 你 见 过 多 个 。 然 而 ， 如 果 你 通过 类 调用 方法 〈 如 Bird. init )， 就 没有 实例 
与 其 相关 联 。 在 这 种 情况 下 ， 你 可 随便 设置 参数 self。 这 样 的 方法 称 为 未 关联 的 。 这 就 对 本 节 的 
标题 做 出 了 解释 。 

通过 将 这 个 未 关联 方法 的 self 参 数 设置 为 当前 实例 ， 将 使 用 超 类 的 构造 函数 来 初始 化 
SongBird 对 象 。 这 意味 着 将 设置 其 属性 hungry。 


9.2.3 ”使 用 函数 super 


如 果 你 使 用 的 不 是 旧版 Python， 就 应 使 用 函数 super。 这 个 函数 只 适用 于 新 式 类 ， 而 你 无 论 
如 何 都 应 使 用 新 式 类 。 调 用 这 个 函数 时 , 将 当前 类 和 当前 实例 作为 参数 。 对 其 返回 的 对 象 调用 方 
法 时 , 调用 的 将 是 超 类 ( 而 不 是 当前 类 ) 的 方法 。 因 此 , 在 SongBird 的 构造 函数 中 , 可 不 使 用 Bird， 
而 是 使 用 super(SongBird, self)。 另 外 ， 可 像 通常 那样 ( 也 就 是 像 调 用 关联 的 方法 那样 ) 调用 方 
法 _init_。 在 Python 3 中 调用 函数 super 时 ， 可 不 提供 任何 参数 ( 通常 也 应 该 这 样 做 )， 而 它 将 
像 变 魔术 一 样 完成 任务 。 
下 面 是 前 述 示例 的 修订 版 本 : 
class Bird: 
def init (self): 
self.hungry = True 
def eat(self): 
if self.hungry: 
print('Aaaah ...') 
self.hungry = False 


else: 
print('No, thanks!') 








































































































class SongBird(Bird): 
def init (self): 
super(). init () 
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5S 
def s 


elf.sound = “9quawkl 
ing(self): 


print(self.sound) 


这 个 新 式 版 本 与 旧式 版 本 等 效 : 


>>> sb = 





SongBird() 


>>> sb.sing() 


Squawk! 


>>> sb.eat() 


Aaaah ... 


>>> sb.eat() 
No, thanks! 


使 用 函数 super 有 何 优点 





在 我 看 
的 优点 。 实 
是 所 有 超 类 


来 ， 相 比 于 直接 对 超 类 调用 未 关联 方法 ， 使 用 函数 super 更 直观 ， 但 这 并 非 其 唯一 
际 上 ， 函 数 super 很 聪明 ， 因 此 即便 有 多 个 超 类 ， 也 只 需 调 用 函数 super 一 次 (条 件 
的 构造 函数 也 使 用 函数 super ) 。 另 外 ， 对 于 使 用 旧式 类 时 处 理 起 来 很 灰 手 的 问题 


(如 两 个 超 类 从 同一 个 类 派生 而 来 )， 在 使 用 新 式 类 和 部 数 super 时 将 自动 得 到 处 理 。 你 无 需 知 
道光 数 super 的 内 部 工作 原理 ,但 必须 知道 的 是 ,使 用 函数 super 比 调用 超 类 的 未 关联 构造 函 


数 (或 其 他 


方法 ) 要 好 得 多 。 


函数 super 返 回 的 到 底 是 什么 呢 ? 通 常 ， 你 无 需 关心 这 个 问题 ， 只 管 假定 它 返回 你 所 需 的 


超 类 即 可 。 
问 它 的 属性 


实际 上 ， 它 返回 的 是 一 个 super 对 象 ， 这 个 对 象 将 负责 为 你 执行 方法 解析 。 当 你 访 
时 ， 它 将 在 所 有 的 超 类 ( 以 及 超 类 的 超 类 ， 等 等 ) 中 查找 ， 直 到 找到 指定 的 属性 或 


引发 AttTibuteETTOT 异 常 。 





9.3 元素 访问 


虽然 _init 无 疑 是 你 目前 遇 到 的 最 重要 的 特殊 方法 , 但 还 有 不 少 其 他 的 特殊 方法 ,让 你 能 
够 完成 很 多 很 酷 的 任务 。 本 节 将 介绍 一 组 很 有 用 的 魔法 方法 ,让 你 能 够 创建 行为 类 似 于 序列 或 映 


射 的 对 象 。 











基本 的 序列 和 映射 协议 非常 简单 ,但 要 实现 序列 和 映射 的 所 有 功能 ,需要 实现 很 多 魔法 方法 。 


所 垃 有 一 些 折 








E 径 可 走 ， 我 马上 就 会 介绍 。 


注意 ”在 Python 中 ,协议 通常 指 的 是 规范 行为 的 规则 ， 有 点 类 似 于 第 7 章 提 及 的 接口 。 协 议 指定 
应 实现 哪些 方法 以 及 这 些 方法 应 做 什么 。 在 Python 中 ， 多 态 仅 仅 基 于 对 象 的 行为 ( 而 不 
基于 祖先 ， 如 属于 哪个 类 或 其 超 类 等 )， 因 此 这 个 概念 很 重要 : 其 他 的 语言 可 能 要 求 对 象 
属于 特定 的 类 或 实现 了 特定 的 接口 ， 而 Python 通常 只 要 求 对 象 遵循 特定 的 协议 。 因 此 ， 
要 成 为 序列 ， 只 需 遵循 序列 协议 即 可 。 
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9.3.1 基本 的 序列 和 映射 协议 


序列 和 映射 基本 上 是 元 素 (item ) 的 集合 ， 要 实现 它们 的 基本 行为 (协议 )， 不 可 变 对 象 需 

要 实现 2 个 方法 ， 而 可 变 对 象 需要 实现 4 个 。 

口 _len (self): 这 个 方法 应 返回 集合 包含 的 项 数 ， 对 序列 来 说 为 元 素 个 数 ， 对 映射 来 说 
为 键 - 值 对 数 。 如 果 ”len_ 返回 零 ( 且 没 有 实现 覆盖 这 种 行为 的 _nonzero ”)， 对象 在 布 
尔 上 下 文中 将 被 视 为 假 ( 就 像 空 的 列表 、 元 组 、 字 符 串 和 字典 一 样 )。 

口 _getitem (self，key): 这 个 方法 应 返回 与 指定 键 相 关联 的 值 。 对 序列 来 说 ， 键 应 该 是 
0~n 一 1 的 整数 (也 可 以 是 负数 ， 这 将 在 后 面 说明 )， 其 中 n 为 序列 的 长 度 。 对 映射 来 说 ， 

键 可 以 是 任何 类 型 。 

口 _setitem (self, key, value): 这 个 方法 应 以 与 键 相 关联 的 方式 存储 值 ， 以 便 以 后 能 够 

使 用 _getitem 来 获取 。 当 然 , 仅 当 对 象 可 变 时 才 需 要 实现 这 个 方法 。 

口 _delitem (self，key): 这 个 方法 在 对 对 象 的 组 成 部 分 使 用 _del_ 语 句 时 被 调用 ， 应 
删除 与 key 相 关联 的 值 。 同 样 ， 仅 当 对 象 可 变 ( 且 人 允许 其 项 被 删除 ) 时 ， 才 需要 实现 这 个 
方法 。 

对 于 这 些 方法 ， 还 有 一 些 额 外 的 要 求 。 

口 对 于 序列 ， 如 果 键 为 负 整 数 ， 应 从 末尾 往 前 数 。 换 而 言 之 ，x[-n] 应 与 x[len(x)-n] 等 效 。 

口 如 果 键 的 类 型 不 合适 〈 如 对 序列 使 用 字符 串 键 )， 可 能 引发 TypeError 异 常 。 

口 对 于 序列 ， 如 果 索 引 的 类 型 是 正确 的 ， 但 不 在 允许 的 范围 内 ， 应 引发 IndexError 异 常 。 

要 了 解 更 复杂 的 接口 和 使 用 的 抽象 基 类 ( Sequence )， 请 参阅 有 关 模 块 collections 的 文档 。 

下 面 来 试 一 试 ， 看 看 能 否 创建 一 个 无 穷 序 列 。 


def check index(key) : 




























































































指定 的 键 是 否 是 可 接受 的 索引 ? 

键 必须 是 非 负 整数 ， 才 是 可 接受 的 。 如 果 不 是 整数 ， 
将 引发 TypeETTOT 异 常 ， 如 果 是 负数 ， 将 引发 Index 
ETTOT 异 常 (因为 这 个 序列 的 长 度 是 无 穷 的 ) 


if not isinstance(key, int): raise TypeError 
if key < 0: raise IndexError 


class ArithmeticSequence: 
def init (self, start=0, step=1): 
初始 化 这 个 算术 序列 
start ”- 序 列 中 的 第 一 个 值 
step -两 个 相 邻 值 的 差 
changed -一 个 字典 ， 包 含 用 户 修改 后 的 值 


self.start = start # 存储 起 始 值 
self.step = step # 存储 步 长 值 
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self.changed = {} # 没有 任何 元 素 被 修改 
def getitem (self, key): 
从 算术 序列 中 获取 一 个 元 素 


check index(key) 


try: return self.changed[key] # 修改 过 ? 
except KeyError: # 如 果 没有 修改 过 ， 
return self.start + key * self.step # 就 计算 元 素 的 值 








def setitem (self, key, value): 


修改 算术 序列 中 的 元 素 


check index(key) 
self.changed[key] = value 存储 修改 后 的 值 


这 些 代码 实现 的 是 一 个 算术 序列 , 其 中 任何 两 个 相 邻 数字 的 差 都 相同 。 第 一 个 值 是 由 构造 函 
数 的 参数 start ( 默认 为 0 ) 指定 的 ， 而 相 邻 值 之 间 的 差 是 由 参数 step ( 默认 为 1 ) 指定 的 。 你 允 
许 用 户 修 改 某 些 元 素 ， 这 是 通过 将 不 符合 规则 的 值 保 存在 字典 changed 中 实现 的 。 如 果 元 素 未 被 
修改 ， 就 使 用 公式 self.start + key * self.step 来 计算 它 的 值 。 

下 面 的 示例 演示 了 如 何 使 用 这 个 类 : 


>>> s = ArithmeticSequence(1, 2) 
>>> s[4] 

9 

>>> s[4] = 2 

>>> s[4] 

2 

>>> s[5] 

11 


请 注意 ， 我 要 禁止 删除 元 素 ， 因 此 没有 实现 _del _: 


>>> del s[4] 
Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
AttributeError: ArithmeticSequence instance has no attribute ' delitem 


男 外 ， 这 个 类 没有 方法 _ len ”， 因 为 其 长 度 是 无 穷 的 。 
如 果 所 使 用 索引 的 类 型 非法 ， 将 引发 TypeError 异 常 ， 如 果 索 引 的 类 型 正确 ， 但 不 在 允许 的 
范围 内 ( 即 为 负数 )， 将 引发 IndexError 异 常 。 


>>> s["four"] 
Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
File "arithseq.py", line 31, in getitem _ 
check index(key) 
File "arithseq.py", line 10, in checkIndex 
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if not isinstance(key, int): raise TypeError 
TypeError 
>>> s[-42] 
Traceback (most recent call last): 
File "«stdin>", line 1, in ? 
File "arithseq.py", line 31, in getitem _ 
check_index(key) 
File "arithseq.py", line 11, in checkIndex 
if key < 0: raise IndexError 
IndexError 


索引 检查 是 由 我 为 此 编写 的 辅助 函数 check_index 负 责 的 。 



































9.3.2 从 1ist、dict 和 str 派生 


基本 的 序列 /映射 协议 指定 的 4 个 方法 能 够 让 你 走 很 远 , 但 序列 还 有 很 多 其 他 有 用 的 魔法 方法 
和 普通 方法 ,其 中 包括 将 在 9.6 节 介绍 的 方法 _iter 。 要 实现 所 有 这 些 方法 , 不仅 工作 量 大 ， 而 
且 难 度 不 小 。 如 果 只 想 定制 某 种 操作 的 行为 ， 就 没有 理由 去 重新 实现 其 他 所 有 方法 。 这 就 是 程序 
员 的 懒惰 (也 是 常识 )。 

那么 该 如 何 做 呢 ? “ 怠 语 ”就 是 继承 。 在 能 够 继承 的 情况 下 为 何 去 重 新 实现 呢 ? 在 标准 库 中 ， 
模块 collections 提 供 了 抽象 和 具体 的 基 类 ， 但 你 也 可 以 继承 内 置 类 型 。 因 此 ， 如 果 要 实现 一 种 
行为 类 似 于 内 置 列 表 的 序列 类 型 ， 可 直接 继承 1ist。 

来 看 一 个 简单 的 示例 一 一 一 个 带 访问 计数 器 的 列表 。 


class CounterList(1ist): 
def _init (self, *args): 
super(). init (*args) 
self.counter = 0 
def getitem (self, index): 
self.counter += 1 
return super(CounterlList, self). getitem (index) 


CounterList 类 深 深 地 依赖 于 其 超 类 (list ) 的 行为 。CounterList 没 有 重 写 的 方法 (如 
append、extend、index 等 ) 都 可 直接 使 用 。 在 两 个 被 重 写 的 方法 中 ,使 用 super 来 调用 超 类 的 
相应 方法 , 并 添加 了 必要 的 行为 : 初始 化 属性 counter (在 init 中 ) 和 更 新 属性 counter (在 
getitem 中 )。 







































































注意 重 写 _getitem 并 不 能 保证 一 定 会 捕 扣 用户 的 访问 操作 ， 因 为 还 有 其 他 访问 列表 内 容 的 
方式 ， 如 通过 方法 pop。 


下 面 的 示例 演示 了 CounterList 的 可 能 用 法 : 


>>> cl = CounterlList(range(10)) 
>>> cl 

[0， 1，2，3，4，5， 6， 7， 2， 9] 
>>> cl.reverse() 

>>> cl 
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[9， 8， 7， 6， 5， 4， 3 2， 1， 0] 
>>> del c1[3:6] 

>>> cl 

[83 25. 0 

>>> cl.counter 


>>> cl[4] + cl[2] 


>>> cl.counter 


如 你 所 见 ，CounterList 的 行为 在 大 多 数 方面 都 类 似 于 列表 ,但 它 有 一 个 counter 属 性 ( 其 初 
始 值 为 0 )。 每 当 你 访问 列表 元 素 时 , 这 个 属性 的 值 都 加 1。 执行 加 法 运算 cl[4] + cl[2] 后 , counter 
的 值 递增 两 次 ， 变 成 了 2。 


9.4 其 他 魔法 方法 


特殊 〈 魔 法 ) 名 称 的 用 途 很 多 ， 前面 展示 的 只 是 冰山 一 角 。 魔 法 方法 大 多 是 为 非常 高 级 的 用 
途 准 备 的 ， 因 此 这 里 不 详细 介绍 。 然 而 ， 如 果 你 感 兴趣 ， 可 以 模拟 数字 ， 让 对 象 像 函数 一 样 被 调 
用 ， 影 响 对 象 的 比较 方式 ， 等 等 。 要 更 详细 地 了 解 有 哪些 魔法 方法 ， 可 参阅 “Python Reference 


Manual” 的 Special method names 一 节 。 


9.5 特性 


第 7 章 提 到 了 存 取 方法 , 它们 是 名 称 类 似 于 getHeight 和 setHeight 的 方法 , 用 于 获取 或 设置 属 
性 (这些 属性 可 能 是 私有 的 ， 详 情 请 参阅 7.2.4 节 )。 如 果 访 问 给 定 属性 时 必须 采取 特定 的 措施 ， 
那么 像 这 样 封装 状态 变量 ( 属性 ) 很 重要 。 例 如 ， 请 看 下 面 的 Rectangle 类 : 


class Rectangle: 
def _ init (self): 
self.width = 0 
self.height = 0 
def set size(self, size): 
self.width, self.height = size 
def get size(self): 
return self.width, self.height 


下 面 的 示例 演示 了 如 何 使 用 这 个 类 : 


>>> r = Rectangle() 
>>> r.width = 10 
>>> T.height = 5 
>>> r.get size() 
(10) 5) 
>>> r.set size((150, 100)) 
>>> r.width 

150 
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get size 和 set_ size 是 假想 属性 size 的 存 取 方法 ， 这 个 属性 是 一 个 由 width 和 height 组 成 的 元 





组 。( 可 随便 将 这 个 属性 蔡 换 为 更 有 趣 的 属 色 








E， 如 和 矩形 的 面积 或 其 对 角 线 长 度 。) 这 些 代码 并 非 完 


全 错误 ,但 存在 缺陷 。 使 用 这 个 类 时 ,程序 员 应 无 需 关心 它 是 如 何 实现 的 ( 封装 )。 如 果 有 一 天 
你 想 修改 实现 , 让 size 成 为 真正 的 属性 ,而 width 和 height 是 动态 计算 出 来 的 , 就 需要 提供 用 于 访 
问 width 和 height 的 存 取 方法 ,使 用 这 个 类 的 程序 也 必须 重 写 。 应 让 客户 端 代码 ( 使 用 你 所 编写 
代码 的 代码 ) 能 够 以 同样 的 方式 对 待 所 有 的 属性 。 

那么 如 何 解决 这 个 问题 呢 ? 给 所 有 的 属性 都 提供 存 取 方 法 吗 ?” 这 当然 并 非 不 可 能 , 但 如 果 有 
大 量 简单 的 属性 ， 这 样 做 就 不 现实 〈 而 且 有 点 傻 )， 因 为 将 需要 编写 大 量 这 样 的 存 取 方 法 ， 除 了 








获取 或 设置 属性 外 什么 都 不 
有 些 语言 中 ， 这 样 的 问题 很 
一 样 。 通 过 存 取 方 法 定义 的 









































常见 )。 所 幸 Python 能 够 替 你 隐藏 存 取 方 法 ， 让 所 有 的 
属性 通常 称 为 特性 ( property )。 











改 。 这 将 引入 复制 并 粘贴 (重复 代码 ) 的 坏 味 ， 显 然 很 糟糕 ( 虽然 在 





属性 看 起 来 都 


在 Python 中 ， 实 际 上 有 两 种 创建 特定 的 机 制 ， 我 将 重点 介绍 较 新 的 那 种 一 一 函数 property， 
它 只 能 用 于 新 式 类 。 随 后 ， 我 将 简单 说 明 如 何 使 用 魔法 方法 来 实现 特性 。 








9.5.1 函数 property 








函数 property 使 用 起 来 很 简单 。 如 果 你 编写 了 一 个 类 ， 如 前 一 节 的 Rectangle 类 ， 只 需 再 添加 


一 行 代码 。 
class Rectangle: 

def init (self): 
self.width = 0 
self.height = 0 

def set size(self, si 
self.width, self. 

def get size(self): 
return self.width 

size = property(get s 


在 这 个 新 版 的 Rectangle 中 ， 通 


ze): 
height = size 


，Self.height 
ize, set size) 




















过 调用 函数 property 并 将 存 取 方法 作为 参数 获取 方法 在 前 ， 





设置 方法 在 后 ) 创建 了 一 个 特性 ,然后 将 名 称 size 关 联 到 这 个 特性 。 这 样 ， 你 就 能 以 同样 的 方式 


对 待 width、height 和 size， 


>>> r = Rectangle() 
>>> r.width = 10 

>>> r.height = 5 

>>> r.size 

(10, 5) 

>>> T.Size = 150, 100 
>>> r.width 

150 


如 你 所 见 ， 属 性 size 依 然 受 制 于 get_size 和 set_size 执 行 的 计算 ,但 看 起 来 就 像 普 通 属 


一 样 。 























而 无 需 关心 它们 是 如 何 实 现 的 。 








al 
府 
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注意 ”如 果 特 性 的 行为 怪异 ， 务 必 确 保 你 使 用 的 是 新 式 类 (通过 直接 或 间接 地 继承 object 或 直 
接 设置 ”metaclass ”)。 不 然 , 特性 的 获取 方法 依然 正常 ， 但 设置 方法 可 能 不 正常 ( 是否 
如 此 取决 于 使 用 的 Python 版 本 )。 这 可 能 有 点 令 人 迷惑 。 





实际 上 ,调用 函数 property 时 ， 还 可 不 指定 参数 、 指 定 一 个 参数 、 指 定 三 个 参数 或 指定 四 
个 参数 。 如 果 没 有 指定 任何 参数 ， 创 建 的 特性 将 既 不 可 读 也 不 可 写 。 如 果 只 指定 一 个 参数 ( 获 
取 方 法 )， 创 建 的 特性 将 是 只 读 的 。 第 三 个 参数 是 可 选 的 ， 指 定 用 于 删除 属性 的 方法 〈 这 个 方 
法 不 接受 任何 参数 )。 第 四 个 参数 也 是 可 选 的 ， 指 定 一 个 文档 字符 串 。 这 些 参数 分 别名 为 fget、 
fset 、fdel 和 doc。 如 果 你 要 创建 一 个 只 可 写 且 带 文档 字符 串 的 特性 , 可 使 用 它们 作为 关键 字 参 
数 来 实现 。 

本 节 虽 然 很 短 ( 旨 在 说 明 函 数 property 很 简单 )， 却 非常 重要 。 这 里 要 说 明 的 是 ， 对 于 新 式 
类 ， 应 使 用 特性 而 不 是 存 取 方 法 。 

























































































函数 property 的 工作 原理 





你 可 能 很 好 奇 ， 想 知道 特性 是 如 何 完成 其 魔法 的 ， 下 面 就 来 说 一 说 。 如 果 你 对 此 不 感 兴 
趣 ， 可 跳 过 这 些 内容 。 

property 其 实 并 不 是 函数 ， 而 是 一 个 类 。 它 的 实例 包含 一 些 魔法 方法 ， 而 所 有 的 魔法 都 
是 由 这 些 方法 完成 的 。 这 些 魔法 方法 为 _ get 、 set 和 delete ， 它 们 一 道 定 义 了 所 谓 
的 描述 符 协议 。 只 要 对 象 实现 了 这 些 方法 中 的 任何 一 个 ， 它 就 是 一 个 描述 符 。 描 述 符 的 独特 
之 处 在 于 其 访问 方式 。 例 如 ， 读 取 属 性 (具体 来 说 ， 是 在 实例 中 访问 类 中 定义 的 属性 ) 时， 如 
果 它 关联 的 是 一 个 实现 了 _get 的 对 象 ， 将 不 会 返回 这 个 对 象 ， 而 是 调用 方法 _get 并 将 
其 结果 返回 。 实 际 上 ， 这 是 隐藏 在 特性 、 关 联 的 方法 、 静 态 方法 和 类 方法 ( 详细 信息 请 参阅 下 
一 小 节 ) 以 及 super 后 面 的 机 制 。 

有 关 描 述 符 的 详细 信息 ， 请 参阅 Descriptor HowTo Guide ( https://docs.python.org/3/howto/ 
descriptorhtml ) 。 








9.5.2 ”静态 方法 和 类 方法 


讨论 旧 的 特性 实现 方式 之 前 ， 先 来 说 说 另外 两 种 实现 方式 类 似 于 新 式 特 性 的 功能 。 静态 方法 
和 类 方法 是 这 样 创建 的 ; 将 它们 分 别 包装 在 staticmethod 和 classmethod 类 的 对 象 中 。 静 态 方法 的 
定义 中 没有 参数 self， 可 直接 通过 类 来 调用 。 类 方法 的 定义 中 包含 类 似 于 self 的 参数 ， 通 常 被 命 
名 为 cls。 对 于 类 方法 ， 也 可 通过 对 象 直接 调用 ， 但 参数 cls 将 自动 关联 到 类 。 下 面 是 一 个 简单 的 
示例 : 

class MyClass: 



















































































def smeth(): 


156 第 9 章 魔法 方法 、 特 性 和 和 迭代 器 





print('This is a static method') 
smeth = staticmethod(smeth) 


def cmeth(cls): 
print('This is a class method of', cls) 
cmeth = classmethod(cmeth) 


像 这样 手 工 包 装 和 替换 方法 有 点 繁琐 。 在 Python 2.4 中 ， 引 入 了 一 种 名 为 装饰 器 的 新 语法 ， 
可 用 于 像 这 样 包 装 方法 。( 实际 上 ， 装 饰 器 可 用 于 包装 任何 可 调用 的 对 象 ， 并 且 可 用 于 方法 和 郴 
数 。) 可 指定 一 个 或 多 个 装饰 器 ， 为 此 可 在 方法 〈 或 函数 ) 前 面 使 用 运算 符 @ 列 出 这 些 装饰 器 ( 指 
定 了 多 个 装饰 器 时 ， 应 用 的 顺序 与 列 出 的 顺序 相反 )。 


class MyClass: 











@staticmethod 
def smeth(): 
print('This is a static method') 


@classmethod 
def cmeth(cls): 
print('This is a class method of', cls) 


定义 这 些 方 法 后 ， 就 可 像 下 面 这 样 使 用 它们 (无 需 实例 化 类 ): 
>>> MyClass.smeth() 
This is a static method 


>>> MyClass.cmeth() 
This is a class method of <class ' main .MyClass'> 


在 Python 中 ,静态 方法 和 类 方法 以 前 一 直 都 不 太 重 要 ， 主 要 是 因为 从 某 种 程度 上 说 ， 总 是 可 
以 使 用 函数 或 关联 的 方法 替代 它们 ， 而 且 早期 的 Python 版 本 并 不 支持 它们 。 因 此 ， 虽 然 较 新 的 代 
码 没有 大 量 使 用 它们 ， 但 它们 确实 有 用 武之 地 〈 如 工厂 函数 )， 因 此 你 或 许 应 该 考虑 使 用 它们 。 


一 









































注意 “实际 上 ， 装 饰 器 语法 也 可 用 于 特性 ， 详 情 请 参阅 有 关 函 数 property 的 文档 。 


9.5.3 _ getattr 、 setattr 等 方法 


可 以 拦截 对 对 象 属性 的 所 有 访问 企图 ， 其 用 途 之 一 是 在 旧式 类 中 实现 特性 (在 旧式 类 中 ,也 
数 property 的 行为 可 能 不 符合 预期 )。 要 在 属性 被 访问 时 执行 一 段 代 码 ， 必 须 使 用 一 些 魔法 方法 。 
下 面 的 四 个 魔法 方法 提供 了 你 需要 的 所 有 功能 (在 旧式 类 中 ， 只 需 使 用 后 面 三 个 )。 
口 ”getattribute (self，name): 在 属性 被 访问 时 自动 调用 (只 适用 于 新 式 类 )。 
口 ”getattr (self,，name): 在 属性 被 访问 而 对 象 没有 这 样 的 属性 时 自动 调用 。 
口 _setattr (self，name，value): 试图 给 属性 赋值 时 自动 调用 。 
口 _delattr (self，name): 试图 删除 属性 时 自动 调用 
相 比 函 数 property， 这 些 魔法 方法 使 用 起 来 要 为 手 些 (从 某 种 程度 上 说 ， 效 率 也 更 低 )， 但 
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它们 很 有 用 ,因为 你 可 在 这 些 方法 中 编写 处 理 多 个 特性 的 代码 。 然 而 , 在 可 能 的 情况 下 ， 还 是 使 
用 函数 property 吧 。 
再 来 看 前 面 的 Rectangle 示 例 ， 但 这 里 使 用 的 是 魔法 方法 : 


class Rectangle: 
def init (self): 
self.width = 0 
self.height = 0 
def setattr (self, name, value): 
if name == 'size': 
self.width, self.height = value 
else: 
self. dict [name] = value 
def getattr (self, name): 
if name == 'size': 
return self.width, self.height 
else: 
raise AttributeError() 


如 你 所 见 ， 这 个 版 本 需要 处 理 额外 的 管理 细节 。 对 于 这 个 代码 示例 ， 需 要 注意 如 下 两 点 。 

口 即便 涉及 的 属性 不 是 size， 也 将 调用 方法 _setattr 。 因 此 这 个 方法 必须 考虑 如 下 两 种 
情形 : 如 果 涉 及 的 属性 为 size, 就 执行 与 以 前 一 样 的 操作 ; 否则 就 使 用 魔法 属性 _dict _。 
_dict_ 属性 是 一 个 字典 , 其 中 包含 所 有 的 实例 属性 。 之 所 以 使 用 它 而 不 是 执行 常规 属性 
赋值 ， 是 因为 旨 在 避免 再 次 调用 _setattr _， 进 而 导致 无 限 循环 。 

口 仅 当 没有 找到 指定 的 属性 时 ， 才 会 调用 方法 _getattr 。 这 意味 着 如 果 指 定 的 名 称 不 是 
size, 这 个 方法 将 引发 AttributeError 异 常 ,这 在 要 让 类 能 够 正确 地 支持 hasattr 和 getattr 
等 内 置 函 数 时 很 重要 。 如 果 指 定 的 名 称 为 size， 就 使 用 前 一 个 实现 中 的 表达 式 。 





































































































前 面 说 过 ， 编 写 方法 setattr 时 需要 避 开 无 限 循环 陷阱 ， 编 写 getattribute 时 
亦 如 此 。 由 于 它 拦截 对 所 有 属性 的 访问 〈 在 新 式 类 中 )， 因此 将 拦截 对 _dict 的 访问 ! 
在 getattribute 中 访问 当前 实例 的 属性 时 ， 唯一 安全 的 方式 是 使 用 超 类 的 方 
法 getattribute (使 用 super )。 


注 


涡 


9.6 友 代 天 
本 书 前 面 粗略 地 提 及 了 选 代 器 ( 和 可 迭代 对 象 ) ， 本 节 将 更 详细 地 介绍 。 对 于 魔法 方法 ， 这 
里 只 介绍 _iter _“， 它 是 迭代 器 协议 的 基础 。 


9.6.1 和 迭代 器 协议 


和 迭代 (iterate ) 意味 着 重复 多 次 , 就 像 循 环 那样 。 本 书 前 面 只 使 用 for 循 环 迭 代 过 序列 和 字典 ， 
但 实际 上 也 可 和 迭代 其 他 对 象 : 实现 了 方法 _iter_ 的 对 象 。 
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方法 _iter_ 返回 一 个 迭代 器 ， 它 是 包含 方法 _next_ 的 对 象 ， 而 调用 这 个 方法 时 可 不 提供 
任何 参数 。 当 你 调用 方法 _next_ 时 , 迭代 器 应 返回 其 下 一 个 值 。 如 果 迭 代 器 没有 可 供 返回 的 值 ， 
应 引发 StopIteration 异 常 。 你 还 可 使 用 内 置 的 便利 丽 数 next ， 在 这 种 情况 下 ，next(it) 与 
it. next () 等 效 。 








注意 在 Python3 中 ,迭代 器 协议 有 细微 的 变化 。 在 以 前 的 近代 器 协议 中 ， 要求 近代 器 对 象 包 含 
方法 next 而 不 是 next 。 


这 有 什么 意义 呢 ?” 为 何不 使 用 列表 呢 ?” 因 为 在 很 多 情况 下 ,使 用 列表 都 有 点 像 用 大 炮 打 蚊 
子 。 例如， 如 果 你 有 一 个 可 逐个 计算 值 的 函数 ,你 可 能 只 想 逐 个 地 获取 值 ， 而 不 是 使 用 列表 一 次 
性 获取 。 这 是 因为 如 果 有 很 多 值 ， 列 表 可 能 占用 太 多 的 内 存 。 但 还 有 其 他 原因 : 使 用 迭代 器 更 通 
用 、 更 简单 、 更 优雅 。 下 面 来 看 一 个 不 能 使 用 列表 的 示例 ， 因 为 如 果 使 用 ， 这 个 列表 的 长 度 必须 
的 ! 

“列表 ”为 斐 波 那 契 数列 ， 表 示 该 数列 的 迭代 器 如 下 : 


class Fibs: 

def init (self): 
self.a= 0 
self.b= 1 

def next (self): 
self.a, self.b = self.b, self.a + self.b 
return self.a 

def iter (self): 
return self 






































注意 到 这 个 迭代 器 实现 了 方法 _iter ， 而 这 个 方法 返回 迭代 器 本 身 。 在 很 多 情况 下 ， 都 在 
一 个 对 象 中 实现 返回 迭代 器 的 方法 _iter ,并 在 for 循 环 中 使 用 这 个 对 象 。 但 推荐 在 迭代 融 
中 也 实现 方法 _iter (并 像 刚 才 那 样 让 它 返 i 这 样 迭代 器 就 可 直接 用 于 for 循 环 中 。 











注意 更 正规 的 定义 是 , 实现 了 方法 _iter 的 对 象 是 可 迭代 的 , 而 实现 了 方法 _next 的 对 象 
是 迭代 器 。 


首先 ， 创 建 一 个 Fibs 对 象 。 


>>> fibs = Fibs() 


然后 就 可 在 for 循 环 中 使 用 这 个 对 象 ， 如 找 出 第 一 个 大 于 1000 的 裴 波 那 契 数 。 


>>> for f in fibs: 
if f > 1000: 
print(f) 

break 








1597 


文 个 循环 之 所 以 会 停止 , 是 因为 其 中 包含 break 语 句 ; 否则 , 这 个 for 循 环 将 没完 没 了 地 执行 。 
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提示 “通过 对 可 迭代 对 象 调用 内 置 函 数 iter， 可 获得 一 个 迭代 器 。 


>>> 让 = iter([1, 2, 3]) 
>>> next(it) 

: 

>>> next(it) 

小 


还 可 使 用 它 从 函数 或 其 他 可 调用 对 象 创建 可 迭代 对 象 ， 详 情 请 参阅 库 参 考 手 册 。 


9.6.2 ”从 迁 代 器 创建 序列 


除了 对 和 迭代 器 和 可 迭代 对 象 进行 迭代 (通常 这 样 做 ) 之 外 ,还 可 将 它们 转换 为 序列 。 在 可 以 
使 用 序列 的 情况 下 ， 大 多 也 可 使 用 迭代 器 或 可 迭代 对 象 ( 诸如 索引 和 切片 等 操作 除外 )。 一 个 这 
样 的 例子 是 使 用 构造 函数 1ist 显 式 地 将 迭代 器 转换 为 列表 。 


>>> class TestIterator: 

value = 0 

def next (self): 
self.value += 1 
if self.value > 10: raise StopIteration 
return self.value 

def iter (self): 
return self 




















>>> ti = TestIterator() 
>>> list(ti) 
[27 3% Wy by 7 8 9 0] 


9.7 生成 器 


生成 融 是 一 个 相对 较 新 的 Python 概 念 。 由 于 历史 原因 ， 它 也 被 称 为 简单 生成 器 ( simple 
generator )。 生 成 器 和 和 迭代 器 可 能 是 近年 来 引入 的 最 强大 的 功能 ， 但 生成 器 是 一 个 相当 复杂 的 概 
念 , 你 可 能 需要 花 些 功 夫 才 能 明白 其 工作 原理 和 用 途 。 虽 然 生 成 器 让 你 能 够 编写 出 非常 优雅 的 代 
码 ， 但 请 放心 ， 无 论 编写 什么 程序 ， 都 完全 可 以 不 使 用 生成 器 。 

生成 器 是 一 种 使 用 普通 函数 语法 定义 的 迭代 器 。 生 成 器 的 工作 原理 到 底 是 什么 呢 ? 通过 示例 
来 说 明 最 合适 。 下 面 先 来 看 看 如 何 创建 和 使 用 生成 器 ， 然 后 再 看 看 幕后 的 情况 。 


9.7.1 创建 生成 器 


生成 器 创建 起 来 与 函数 一 样 简单 。 你 现在 肯定 厌烦 了 老 套 的 斐 波 那 契 数列 , 所 以 下 面 换 换 口 
味 ， 创 建 一 个 将 上 伦 套 列表 展开 的 函数 。 这 个 函数 将 一 个 类 似 于 下 面 的 列表 作为 参数 : 
nested = [[1, 2], [3, 4], [5]] 


换 而 言 之 ,这 是 一 个 列表 的 列表 。 函 数 应 按 顺序 提供 这 些 数字 ， 下 面 是 一 种 解决 方案 : 
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def flatten(nested): 
for sublist in nested : 
for element in sublist: 
yield element 


这 个 函数 的 大 部 分 代码 都 很 简单 。 它 首先 迭代 所 提供 嵌 套 列表 中 的 所 有 子 列 表 , 然后 按 顺 序 
迭代 每 个 子 列 表 的 元 素 。 俏 若 最 后 一 行为 print(element) ， 这 个 函数 将 容易 理解 得 多 ， 不 是 吗 ? 

在 这 里 ， 你 没有 见 过 的 是 yield 语 句 。 包 含 yield 语 句 的 函数 都 被 称 为 生成 器 。 这 可 不 仅仅 是 
名 称 上 的 差别 ,生成 器 的 行为 与 普通 函数 截然 不 同 。 差 别 在 于 ， 生 成 名 不 是 使 用 return 返 回 一 个 
值 ， 而 是 可 以 生成 多 个 值 ， 每 次 一 个 。 每 次 使 用 yield 生 成 一 个 值 后 ， 葡 数 都 将 冻结 ， 即 在 此 停 
止 执行 ， 等 待 被 重新 唤醒 。 被 重新 唤醒 后 ， 函 数 将 从 停止 的 地 方 开 始 继续 执行 。 

为 使 用 所 有 的 值 ， 可 对 生成 天 进 行 迭 代 。 


>>> nested = [[1, 2], [3, 4], [5]] 
>>> for num in flatten(nested): 
print(num) 



























































ur RS 


>>> list(flatten(nested)) 
[1 -23 35- 455.5] 


简单 生成 器 
在 Python 2.4 中 ， 引 入 了 一 个 类 似 于 列表 推导 ( 参见 第 5 章 ) 的 概念 : 生成 器 推导 (也 叫 生 
成 器 表达 式 ) 。 其 工作 原理 与 列表 推导 相同 ， 但 不 是 创建 一 个 列表 ( 即 不 立即 执行 循环 ) ， 而 
是 返回 一 个 生成 器 ， 让 你 能 够 逐步 执行 计算 。 


>>> g = ((i + 2) ** 2 for i in range(2, 27)) 
>>> next(g) 
16 


如 你 所 见 ， 不 同 于 列表 推导 ， 这 里 使 用 的 是 圆 括号 。 在 像 这 样 的 简单 情形 下 ， 还 不 如 使 
用 列表 推导 ; 但 如 果 要 包装 可 和 迭代 对 象 ( 可 能 生成 大 量 的 值 ) ， 使 用 列表 推导 将 立即 实例 化 一 
个 列表 ， 从 而 囊 失 迭代 的 优势 。 

另 一 个 好 处 是 ， 直 接 在 一 对 既 有 的 圆 括号 内 (如 在 函数 调用 中 ) 使 用 生成 器 推导 时 ， 无 需 
再 添加 一 对 圆 括 号 。 换 而 言 之 ， 可 编写 下 面 这 样 非常 漂亮 的 代码 : 


sum(i ** 2 for i in range(10)) 
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9.7.2 ”递归 式 生 成 器 


前 一 节 设 计 的 生成 器 只 能 处 理 两 层 的 租 套 列表 ， 这 是 使 用 两 个 for 循 环 来 实现 的 。 如 果 要 处 
理 任意 层 远 套 的 列表 , 该 如 何 办 呢 ? 例 如 ,你 可 能 使 用 这 样 的 列表 来 表示 树 结构 ( 也 可 以 使 用 特 
定 的 树 类 , 但 策略 是 相同 的 )。 对 于 每 层 舱 套 , 都 需要 一 个 for 循 环 , 但 由 于 不 知道 有 多 少 层 藤 套 ， 
你 必须 修改 解决 方案 ， 使 其 更 灵活 。 该 求助 于 递归 了 。 


def flatten(nested) : 
tIY: 
for sublist in nested: 
for element in flatten(sublist): 
yield element 
except TypeError: 
yield nested 


调用 flatten 时 , 有 两 种 可 能 性 ( 处 理 递归 时 都 如 此 ): 基线 条 件 和 递归 条 件 。 在 基线 条 件 下 ， 
要 求 这 个 函数 展开 单个 元 素 ( 如 一 个 数 )。 在 这 种 情况 下 ，for 循 环 将 引发 TypeError 异 常 ( 因为 
你 试图 迭代 一 个 数 )， 而 这 个 生成 器 只 生成 一 个 元 素 。 

然而 ， 如 果 要 展开 的 是 一 个 列表 (或 其 他 任何 可 迭代 对 象 )， 你 就 需要 做 些 工作 : 遍历 所 有 
的 子 列 表 ( 其 中 有 些 可 能 并 不 是 列表 ) 并 对 它们 调用 flatten， 然 后 使 用 另 一 个 for 循 环 生成 展开 
后 的 子 列 表 中 的 所 有 元 素 。 这 可 能 看 起 来 有 点 不 可 思议 ， 但 确实 可 行 。 


>>> list(flatten([[[1], 2], 3, 4, [5, [6, 7]], 8])) 
Es 2， 3， 4， 5， 63 7， 8] 


然而 ， 这 个 解决 方案 存在 一 个 问题 。 如 果 nested 是 字符 串 或 类 似 于 字符 串 的 对 象 ， 它 就 
序列 ， 因 此 不 会 引发 TypeError 异 常 ， 可 你 并 不 想 对 其 进行 近代 。 




























































































于 





再 





注意 ”在 函数 flatten 中 ， 不 应 该 对 类 似 于 字符 串 的 对 象 进行 和 迭代， 主要 原因 有 两 个 。 首 先 ， 你 
想 将 类 似 于 字符 串 的 对 象 视 为 原子 值 ， 而 不 是 应 该 展开 的 序列 。 其 次 ， 对 这 样 的 对 象 进 
行 和 迭代 会 导致 无 穷 递 归 ， 因 为 字符 串 的 第 一 个 元 素 是 一 个 长 度 为 1 的 字符 串 ， 而 长 度 为 1 
的 字符 囊 的 第 一 个 元 素 是 字符 串 本 身 ! 




















要 处 理 这 种 问题 ， 必 须 在 生成 器 开头 进行 检查 。 要 检查 对 象 是 否 类 似 于 字符 串 ， 最 简单 、 最 
快捷 的 方式 是 ， 尝 试 将 对 象 与 一 个 字符 串 拼 接 起 来 ， 并 检查 这 是 否 会 引发 TypeError 异 常 "。 添 加 
这 种 检查 后 的 生成 器 如 下 : 


def flatten(nested) : 
try: 
# 不 选 代 类 似 于 字符 串 的 对 象 : 
try: nested + "" 
except TypeError: pass 
else: raise TypeError 
for sublist in nested: 


























@ 感 谢 Alex Martelli 指 出 了 这 个 成 例 以 及 在 这 里 使 用 它 的 重要 性 。 
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for element in flatten(sublist): 
yield element 
except TypeError: 
yield nested 


如 你 所 见 ， 如 果 表 达 式 nested + '' 引 发 了 TypeError 异 常 ， 就 忽略 这 种 异常 ;如 果 没 有 引发 
TypeError 异 常 ， 内 部 try 语 句 中 的 else 子 句 将 引发 TypeError 异 常 ， 这 样 将 在 外 部 的 excpet 子 句 中 
原封 不 动 地 生成 类 似 于 字符 串 的 对 象 。 明 白 了 吗 ? 

下 面 的 示例 表明 ， 这 个 版 本 也 可 用 于 字符 串 : 

>>> list(flatten(['foo', ['bar', ['baz']]])) 

['foo', 'bar', 'baz'] 

请 注意 ， 这 里 没有 执行 类 型 检查 : 我 没有 检查 nested 是 否 是 字符 串 ， 而 只 是 检查 其 行为 是 否 
类 似 于 字符 串 , 即 能 否 与 字符 串 拼 接 。 对 于 这 种 检查 , 一 种 更 自然 的 替代 方案 是 , 使 用 isinstance 
以 及 字符 串 和 类 似 于 字符 串 的 对 象 的 一 些 抽 象 超 类 ,但 遗憾 的 是 没有 这 样 的 标准 类 。 另 外 ,即便 
是 对 UserString 来 说 ， 也 无 法 检查 其 类 型 是 否 为 str。 


9.7.3 ”通用 生成 器 


如 果 你 按 前 面 的 例子 做 了 ， 就 差不多 知道 了 如 何 使 用 生成 器 。 你 知道 ,生成 器 是 包含 关键 字 
yield 的 函数 ， 但 被 调用 时 不 会 执行 函数 体内 的 代码 ， 而 是 返回 一 个 迭代 器 。 每 次 请 求 值 时 ， 都 
将 执行 生成 器 的 代码 ， 直 到 遇 到 yie1d 或 return。yield 意 味 着 应 生成 一 个 值 ， 而 return 意 味 着 生 
成 器 应 停止 执行 〈《 即 不 再 生成 值 ; 仅 当 在 生成 器 调用 return 时 ， 才 能 不 提供 任何 参数 )。 

换 而 言 之 , 生成 需 由 两 个 单独 的 部 分 组 成 : 生成 器 的 函数 和 生成 器 的 迭代 器 。 生 成 名 的 函数 
是 由 def 语 句 定义 的 ， 其 中 包含 yield。 生 成 器 的 迭代 器 是 这 个 函数 返回 的 结果 。 用 不 太 准 确 的 话 
说 ， 这 两 个 实体 通常 被 视 为 一 个 ， 通 称 为 生成 器 。 

>>> def simple generator(): 

yield 1 































































































>>> simple generator 

<function simple generator at 153b44> 
>>> simple generator() 

<generator object at 1510b0> 


对 于 生成 器 的 函数 返回 的 迭代 器 ， 可 以 像 使 用 其 他 和 迭 代 器 一 样 使 用 它 。 


9.7.4 生成 器 的 方法 


在 生成 器 开始 运行 后 , 可 使 用 生成 器 和 外 部 之 间 的 通信 渠道 向 它 提供 值 。 这 个 通信 渠道 包含 
如 下 两 个 端点 。 
口 外 部 世界 : 外 部 世界 可 访问 生成 器 的 方法 send, 这 个 方法 类 似 于 next , 但 接受 一 个 参数 (要 
发 送 的 “消息 "， 可 以 是 任何 对 象 )。 
口 生成 器 : 在 挂 起 的 生成 需 内 部 ，yield 可 能 用 作 表 达 式 而 不 是 语句 。 换 而 言 之 ， 当 生成 需 
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重新 运行 时 ，yield 返 回 一 个 值 一 一 通过 send 从 外 部 世界 发 送 的 值 。 如 果 使 用 的 是 next， 
yield 将 返回 None。 
请 注意 ， 仅 当 生成 器 被 挂 起 ( 即 遇 到 第 一 个 yield ) 后 ， 使 用 send ( 而 不 是 next ) 才 有 意义 。 
要 在 此 之 前 向 生成 器 提供 信息 ， 可 使 用 生成 器 的 冰 数 的 参数 。 





注意 ”如 果 一 定 要 在 生成 器 刚 启 动 时 对 其 调用 方法 send， 可 向 它 传递 参数 None。 





下 面 的 示例 很 优 ， 但 说 明了 这 种 机 人 制 : 


def repeater(value): 
while True: 
new = (yield value) 
if new is not None: value = new 


下 面 使 用 了 这 个 生成 器 : 


>>> r = repeater(42) 

>>> next(r) 

42 

>>> r.send("Hello, world!") 
"Hello, world!" 


注意 到 使 用 圆 括号 将 yie1d 表 达 式 括 起 来 了 。 在 有 些 情况 下 ， 并 非 必 须 这 样 做 ， 但 小 心 驶 得 
万 年 船 。 如 果 要 以 某 种 方式 使 用 返回 值 ， 就 不 管 三 七 二 十 一 ， 将 其 用 圆 括号 括 起 吧 。 

生成 器 还 包含 另外 两 个 方法 。 

方法 throw: 用 于 在 生成 器 中 (yield 表达 式 处 ) 引发 异常 ， 调 用 时 可 提供 一 个 异常 类 型 、 一 
个 可 选 值 和 一 个 traceback 对 象 。 

方法 close: 用 于 停止 生成 器 ， 调 用 时 无 需 提 供 任 何 参数 。 

方法 close (由 Python 垃圾 收集 器 在 需要 时 调用 ) 也 是 基于 异常 的 : 在 yield 处 引发 
GeneratorExit 异 常 。 因 此 如 果 要 在 生成 器 中 提供 一 些 清 理 代 码 ， 可 将 yie1d 放 在 一 条 try/finally 
语句 中 。 如 果 愿 意 ， 也 可 捕获 GeneratorExit 异 常 ， 但 随后 必须 重新 引发 它 ( 可 能 在 清理 后 )、 引 
发 其 他 异常 或 直接 返回 ,对 生成 侨 调 用 close 后 ,再 试图 从 它 那 里 获取 值 将 导致 RuntimeError 异 常 。 















































提示 ”有关 生成 器 的 方法 以 及 它们 是 如 何 将 生成 器 变 成 简单 协同 程序 ( coroutine ) 的 详细 信息 ， 
请 参阅 “PEP 342”( www.python.org/dev/peps/pep-0342/ )。 


9.7.5 ”模拟 生成 器 

如 果 你 使 用 的 是 较 老 的 Python 版 本 ， 就 无 法 使 用 生成 器 。 下 面 是 一 个 简单 的 解决 方案 ， 让 你 
能 够 使 用 普通 函数 模拟 生成 右 。 

首先 ， 在 函数 体 开头 插入 如 下 一 行 代码 : 


result = [] 
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如 果 代 码 已 使 用 名 称 result， 应 改 用 其 他 名 称 。( 在 任何 情况 下 ， 使 用 更 具 描 述 性 的 名 称 都 
是 不 错 的 主意 。) 接 下 来 ， 将 类 似 于 yield some expression 的 代码 行 奉 换 为 如 下 代码 行 : 


yield some expression with this: 
result.append(some expression) 


最 后 ， 在 函数 未 尾 添加 如 下 代码 行 : 

return result 

尽管 使 用 这 种 方法 并 不 能 模拟 所 有 的 生成 器 , 但 可 模拟 大 部 分 生成 器 。 例如， 这 无 法 模拟 无 
穷 生 成 器 ， 因 为 显然 不 能 将 这 种 生成 器 的 值 都 存储 到 一 个 列表 中 。 

下 面 使 用 普通 函数 重 写 了 生成 器 flatten: 


def flatten(nested) : 
result = [] 
try: 


























# 不 迭代 类 似 于 字符 囊 的 对 象 : 
try: nested + "" 
except TypeError: pass 
else: raise TypeError 
for sublist in nested: 
for element in flatten(sublist): 
result.append(element) 
except TypeError: 
result.append(nested) 
return result 





9.8 八 皇 后 问题 
学 习 各 种 魔法 方法 后 ,该 付 诸 应 用 了 。 本 节 将 演示 如 何 使 用 生成 器 来 解决 一 个 经 典 的 编程 


问题 。 


9.8.1 生成 器 的 回溯 


对 于 逐步 得 到 结果 的 复杂 递归 算法 , 非常 适合 使 用 生成 器 来 实现 。 要 在 不 使 用 生成 器 的 情况 
下 实现 这 些 算法 ,通常 必须 通过 额外 的 参数 来 传递 部 分 结果 ,让 递归 调用 能 够 接着 往 下 计算 。 通 
过 使 用 生成 器 ， 所 有 的 递归 调用 都 只 需 生成 其 负责 部 分 的 结果 。 前 面 的 递归 版 flatten 就 是 这 样 
做 的 ， 你 可 使 用 这 种 策略 来 遍历 图 结构 和 树 结构 。 

然而 ， 在 有 些 应 用 程序 中 ,你 不 能 马上 得 到 答案 。 你 必须 尝试 多 次 ,， 且 在 每 个 递归 层级 中 都 
如 此 。 打 个 现实 生活 中 的 比方 吧 , 假设 你 要 去 参加 一 个 很 重要 的 会 议 。 你 不 知道 会 议 在 哪里 召开 ， 
但 前 面 有 两 扇 门 ， 而 会 议 室 就 在 其 中 一 扇 门 的 后 面 。 你 选择 进入 左边 那 扇 门 后 ， 又 看 到 两 扇 门 。 
你 再 次 选择 进入 左边 那 扇 门 , 但 发 现 走 错 了 。 因 此 你 往 回 走 ,， 并 进入 右边 那 扇 门 , 但 发 现 也 走 错 
了 。 因 此 你 继续 往 回 走 到 起 点 ， 现 在 可 以 尝试 进入 右边 那 扇 门 。 
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图 和 树 


如 果 你 以 前 从 未 听 说 过 图 和 树 ， 应 尽快 学 习 ， 因 为 它们 是 编程 和 计算 机 科学 中 非常 重要 
的 概念 。 要 深入 了 解 图 和 树 ， 可 参阅 计算 机 科学 、 离 散 数学 、 数 据 结构 或 算法 方面 的 图 书 。 
下 面 的 网 页 提供 了 有 关 图 和 树 的 简明 定义 : 
DD http://mathworld.wolfram.com/Graph.html 
http://mathworld.wolfram.com/Tree.html 
D www.nist.gov/dads/HTML/tree.html 
口 www.nist.gov/dads/HTML/graph.html 

通过 在 网 上 搜索 或 浏览 维基 百科 ( http://wikipedia.org ) ， 可 找到 大 量 有 关 这 些 主题 的 
资料 。 











对 于 需要 尝试 所 有 组 合 直到 找到 答案 的 问题 , 这 种 回溯 策略 对 其 解决 很 有 帮助 。 这 种 问题 的 
解决 方案 类 似 于 下 面 这 样 : 


# 伪 代 码 
for each possibility at level 1: 
for each possibility at level 2: 








for each possibility at level n: 
is it viable? 


要 直接 使 用 for 循 环 来 实现 ， 必 须知 道 有 多 少 层 。 如 果 无 法 知道 ， 可 使 用 递归 。 











9.8.2 问题 




















这 是 一 个 深 受 大 家 喜爱 的 计算 机 科学 这 题 : 你 需要 将 8 个 皇后 放 在 棋盘 上 ， 条 件 是 任何 一 个 
皇后 都 不 能 威胁 其 他 皇后 ， 即 任何 两 个 皇后 都 不 能 吃 掉 对 方 。 怎 样 才能 做 到 这 一 点 呢 7? 应 将 这 些 
星 后 放 在 什么 地 方 呢 ? 

这 是 一 个 典型 的 回溯 问题 : 在 棋盘 的 第 一 行 尝试 为 第 一 个 皇后 选择 一 个 位 置 , 再 在 第 二 行 学 
试 为 第 二 个 皇后 选择 一 个 位 置 , 依次 类 推 。 在 发 现 无 法 为 一 个 皇后 选择 合适 的 位 置 后 ， 回 溯 到 前 
一 个 皇后 ， 并 尝试 为 它 选择 男 一 个 位 置 。 最 后 ， 要 人 么 尝试 完 所 有 的 可 能 性 ， 要 人 么 找到 了 答案 。 

在 前 面 描述 的 问题 中 ， 只 有 8 个 皇后 ， 但 这 里 假设 可 以 有 任意 数量 的 皇后 ， 从 而 更 像 现 实 世 
界 的 回溯 问题 。 如 何 解决 这 个 问题 呢 ? 如 果 你 想 自 己 试 一 坛 ， 就 不 要 再 往 下 读 了 ,因为 马上 就 会 
提供 解决 方案 。 
















































































注意 ”对 于 这 个 问题 ， 可 找到 效率 高 得 多 的 解决 方案 。 如 果 你 想 深入 了 解 ， 在 网 上 搜索 就 可 找 
到 大 量 的 信息 。 
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9.8.3 ”状态 表示 


可 简单 地 使 用 元 组 (或 列表 ) 来 表示 可 能 的 解 (或 其 一 部 分 )， 其 中 每 个 元 素 表示 相应 行 中 
皇后 所 在 的 位 置 ( 即 列 )。 因 此 ， 如 果 state[0] == 3， 就 说 明 第 1 行 的 皇后 放 在 第 4 列 ( 还 记得 吧 ， 
我 们 从 0 开始 计数 )。 在 特定 的 递归 层级 ( 特定 的 行 )， 你 只 知道 上 面 各 皇后 的 位 置 ， 因 此 状态 元 
组 的 长 度 小 于 8( 即 皇 后 总 数 )。 














注意 ”完全 可 以 使 用 列表 (而 不 是 元 组 ) 来 表示 状态 ， 具 体 使 用 哪个 完全 取决 于 你 的 喜好 。 一 
般 而 言 ， 如 果 序 列 较 小 且 是 静态 的 ， 使 用 元 组 可 能 是 不 错 的 选择 。 


9.8.4 检测 冲突 


先 来 做 些 简 单 的 抽象 。 要 找 出 没有 冲突 〈 即 任何 一 个 皇后 都 吃 不 到 其 他 皇后 ) 的 位 置 组 合 ， 
首先 必须 定义 冲突 是 什么 。 为 何不 使 用 一 个 函数 来 定义 呢 ? 
函数 conflict 接 受 〈 用 状态 元 组 表示 的 ) 既 有 皇后 的 位 置 ， 并 确定 下 一 个 旺 后 的 位 置 是 否 会 
导致 冲突 。 
def conflict(state, nextX): 
nextY = len(state) 
for i in range(nextY): 
if abs(state[i] - nextX) in (0, nextY - i): 
return True 
return False 


参数 nextX 表 示 下 一 个 皇后 的 水 平 位 置 (x 坐标 ， 即 列 )， 而 nextY 为 下 一 个 皇后 的 垂直 位 置 (y 
坐标 ， 即 行 )。 这 个 函数 对 既 有 的 每 个 皇后 执行 简单 的 检查 : 如 果 下 一 个 皇后 与 当前 皇后 的 x 坐标 
相同 或 在 同一 条 对 角 线 上 ， 将 发 生 冲 突 ， 因 此 返回 True; 如 果 没 有 发 生 冲 突 ， 就 返回 False。 比 
较 难 理解 的 是 下 面 的 表达 式 : 
abs(state[i] - nextX) in (0, nextY - i) 

如 果 下 一 个 皇后 和 当前 皇后 的 水 平 距离 为 0 ( 在 同一 列 ) 或 与 它们 的 垂直 距离 相等 〈 位 于 一 
条 对 角 线 上 )， 这 个 表达 式 就 为 真 ; 否则 为 假 。 


9.8.5 ”基线 条 件 


八 皇后 问题 解决 起 来 有 点 棘手 ,但 通过 使 用 生成 器 并 不 太 难 。 然 而 ， 如果 你 不 熟悉 递归 ,就 
很 难 自己 想 出 这 里 的 解决 方案 。 另 外 ， 这 个 解决 方案 的 效率 不 是 特别 高 ， 因 此 皇后 非常 多 时 ,其 
速度 可 能 有 点 慢 。 

下 面 先 来 看 基线 条 件 : 最 后 一 个 皇后 。 对 于 这 个 皇后 ,你 想 如 何 处 理 呢 ? 假设 你 想 找 出 所 有 
可 能 的 解 一 一 给 定 其 他 皇后 的 位 置 , 可 将 这 个 皇后 放 在 什么 位 置 ( 可 能 什么 位 置 都 不 行 )? 可 以 
这 样 编写 代码 。 
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def queens(num, state): 
if len(state) == num-1: 
for pos in range(num): 
if not conflict(state, pos): 
yield pos 
这 段 代 码 的 意思 是 ,如 果 只 剩 下 最 后 一 个 皇后 没有 放 好 ,就 遍历 所 有 可 能 的 位 置 ， 并 返回 那 
些 不 会 引发 冲突 的 位 置 。 参 数 num 为 皇后 总 数 ， 而 参数 state 是 一 个 元 组 ,包含 已 放 好 的 皇后 的 位 
置 。 例 如 ,假设 总 共有 4 个 皇后 ， 而 前 3 个 皇后 的 位 置 分 别 为 1、3 和 0， 如 图 9-1 所 示 。( 现在 不 用 
关心 日 色 的 旦 后。 ) 
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图 9-1 在 一 个 4 行 4 列 的 棋盘 上 放置 4 个 皇后 
从 该 图 可 知 ， 每 个 皇后 都 占据 一 行 ， 而 皇后 的 位 置 是 从 0 开始 编号 的 《Python 中 通常 如 此 )。 


>>> list(queens(4, (1, 3, 0))) 
[2] 


代码 的 效果 很 好 。 这 里 使 用 1ist 骨 在 让 生成 器 生成 所 有 的 值 。 在 这 个 示例 中 ,只 有 一 个 位 置 
符合 条 件 。 在 图 9-1 中 ， 在 这 个 位 置 放置 了 一 个 白色 皇后 。( 请 注意 ,颜色 没有 什么 特殊 含义 ， 不 
是 程序 的 一 部 分 。) 


9.8.6 ”递归 条 件 
现在 来 看 看 这 个 解决 方案 的 递归 部 分 。 处 理 好 基线 条 件 后 , 可 在 递归 条 件 中 假设 来 自 更 低层 
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级 (编号 更 大 的 皇后 ) 的 结果 都 是 正确 的 。 因 此 ， 只 需 在 函数 queens 的 前 述 实现 中 给 if 语 句 添 加 
一 个 else 子 句 。 

你 希望 递归 调用 返回 什么 样 的 结果 呢 ? 你 希望 它 返 回 当前 行 下 面 所 有 旦 后 的 位 置 , 对 吧 ? 假 
设 位 置 是 以 元 组 的 方式 返回 的 ， 因 此 需要 修改 基线 条 件 ， 使 其 返回 一 个 (长 度 为 1 的 ) 元 组 , 但 
这 将 在 后 面 处 理 。 

因此 ,对 于 递归 调用 , 向 它 提供 的 是 由 当前 行 上 面 的 皇后 位 置 组 成 的 元 组 。 对 于 当前 皇后 的 
每 个 合法 位 置 , 递归 调用 返回 的 是 由 下 面 的 皇后 位 置 组 成 的 元 组 。 为 了 让 这 个 过 程 不 断 进行 下 去 ， 
只 需 将 当前 皇后 的 位 置 插入 返回 的 结果 开头 ， 如 下 所 示 : 

































































else: 
for pos in range(num): 
if not conflict(state, pos): 
for result in queens(num, state + (pos,)): 
yield (pos,) + result 


这 里 的 for pos 和 if not conflict 部 分 与 前 面相 同 ， 因 此 可 以 稍微 简化 一 下 代码 。 另 外 ， 还 
可 给 参数 指定 默认 值 。 


def queens(num=8, state=()): 
for pos in range(num): 
if not conflict(state, pos): 
if len(state) == Num-1: 
yield (pos,) 
else: 
for result in queens(num, state + (pos,)): 
yield (pos,) + result 


如 果 你 觉得 这 些 代 码 难 以 理解 , 用 自己 的 话 来 描述 其 作用 可 能 会 有 所 帮助 。 男 外 ,你 可 能 还 
记得 (pos, ) 中 的 逗号 必 不 可 少 〈 不 能 仅 用 圆 括号 将 pos 括 起 )， 这 样 得 到 的 才 是 元 组 。 
生成 器 queens 提 供 了 所 有 的 解 〈 即 所 有 合法 的 皇后 位 置 组 合 )。 


>>> list(queens(3)) 
[] 
>>> list(queens(4)) 

[(1, 3, 0, 2), (2, 0, 3, 1)] 
>>> for solution in queens(8): 
print solution 


























(0， 4， 7 5， 2 6， 1, 3) 
(0, 5, 7, 2, 6, 3, 1, 4) 


(B23 07 4y Hy 3) 
Ee 
Ps 


如 果 运 行 queens 时 将 参数 num 设 置 为 8， 将 快速 显示 大 量 的 解 。 下 面 看 看 有 多 少 个 解 。 


>>> len(list(queens(8))) 
92 
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9.8.7 ”扫尾 工作 


结束 本 节 之 前 ,可 以 让 输出 更 容易 理解 些 。 在 任何 情况 下 ,清晰 的 输出 都 是 好 事 ， 因 为 这 让 
查找 bug 等 工作 更 容易 。 


def prettyprint(solution): 
def line(pos, length=len(solution)): 
return '. '* (pos)+ 'X'+'. '* (length-pos-1) 
for pos in solution: 
print(line(pos)) 























请 注意 ， 我 在 prettyprint 中 创建 了 一 个 简单 的 辅助 函数 。 之 所 以 将 它 放 在 prettyprint 中 ， 


是 因为 我 认为 在 其 他 地 方 都 用 不 到 它 。 下 面 随机 地 选择 一 个 解 ， 并 将 其 打印 出 来 ， 以 确定 它 是 正 
确 的 。 


>>> import Tandom 
>>> prettyprint(random.choice(list(queens(8)))) 
X 











图 9-2 ” 八 皇 后 问题 的 众多 解 之 一 
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9.9 小 结 


本 章 介 绍 的 内 容 很 多 ， 下 面 来 总 结 一 下 。 

口 新 式 类 和 旧式 类 : Python 类 的 工作 方式 在 不 断 变化 。 较 新 的 Python 2 版 本 有 两 种 类 ， 其 中 
旧式 类 正在 快速 退出 舞台 。 新 式 类 是 Python 2.2 引 入 的 ， 提 供 了 一 些 额外 的 功能 ， 如 支持 
函数 super 和 property， 而 旧式 类 不 支持 。 要 创建 新 式 类 ， 必 须 直 接 或 间接 地 继承 object 
或 设置 _metaclass 。 

口 魔法 方法 : Python 中 有 很 多 特殊 方法 ,其 名 称 以 两 个 下 划 线 开头 和 结尾 。 这 些 方 法 的 功能 

各 不 相同 ,但 大 都 由 Python 在 特定 情况 下 自动 调用 ,例如 _init 是 在 对 象 创建 后 调用 的 。 

口 构造 函数 : 很 多 面向 对 象 语言 中 都 有 构造 函数 ， 对 于 你 自己 编写 的 每 个 类 ， 都 可 能 需要 

为 它 实 现 一 个 构造 函数 。 构 造 孙 数 名 为 ”init ， 在 对 象 创建 后 被 自动 调用 。 

口 重 写 : 类 可 重 写 其 超 类 中 定义 的 方法 ( 以 及 其 他 任何 属性 ), 为 此 只 需 实现 这 些 方 法 即 可 。 
要 调用 被 重 写 的 版 本 ， 可 直接 通过 超 类 调用 未 关联 版 本 ( 旧式 类 )， 也 可 使 用 函数 super 
来 调用 (新式 类 )。 

口 序列 和 映射 : 要 创建 自 定义 的 序列 或 映射 ， 必 须 实现 序列 和 映射 协议 指定 的 所 有 方法 ， 
其 中 包括 getitem 和 ”setitem 等 魔法 方法 。 通 过 从 list (或 UserList ) 和 dict (或 
UserDict ) 派生 ， 可 减少 很 多 工作 量 。 

口 迭代 器 : 简单 地 说 ,和 迭代 器 是 包含 方法 _next ”的 对 象 ， 可 用 于 迭代 一 组 值 ,没有 更 多 的 
值 可 供 迭 代 时 ,方法 _next 应 引发 5topIteration 异 常 。 可 夫 代 对 象 包含 方法 iter ， 
它 返 回 一 个 像 序列 一 样 可 用 于 for 循 环 中 的 迭代 吉 。 通 常 ， 迭 代 器 也 是 可 迭代 的 ， 即 包含 
返回 迭代 器 本 身 的 方法 iter 。 

口 生成 器 : 生成 器 的 函数 是 包含 关键 字 yield 的 函数 ， 它 在 被 调用 时 返回 一 个 生成 器 ， 即 一 

种 特殊 的 迭代 器 。 要 与 活动 的 生成 髓 交互 ， 可 使 用 方法 send、throw 和 close。 

口 八 皇 后 问题 : 八 皇 后 问题 是 个 著名 的 计算 机 科学 问题 ， 使 用 生成 器 可 轻松 地 解决 它 。 这 
个 问题 要 求 在 棋盘 上 放置 8 个 皇后 ， 并 确保 任何 两 个 皇后 都 不 能 相互 攻击 。 


9.9.1 本 章 介 绍 的 新 函数 























































































































函 数 描 述 
iter(obj) 从 可 过 代 对 象 创建 一 个 迭代 器 
next(it) 让 和 迭代 天 前 进一步 并 返回 下 一 个 元 素 





property(fget, fset, fdel, doc) 回 一 个 特性 ， 所 有 参数 都 是 可 选 的 


回 一 个 超 类 的 关联 实例 


启 





super(class, obj) 


启 


调用 iter 和 super 时 ， 还 可 提供 这 里 没有 列 出 的 其 他 参数 ， 更 详细 的 信息 请 参阅 标准 Python 
文档 。 


9.9 小结 171 





9.9.2 ”预告 


至 此 ， 你 学 习 了 Python 语言 的 大 部 分 知识 , 但 为 何 本 书后 面 还 有 这 么 多 章 呢 ? 因为 需要 学 习 
的 知识 还 有 很 多 ， 大 都 是 关于 Python 如 何以 各 种 方式 与 外 部 联系 的 。 另 外 ,还 有 测试 、 扩 展 、 打 
包 和 一 些 具体 项 目 。 本 书 还 远 没 有 到 结束 的 时 候 。 





开 箱 即 用 











至 此 ， 你 掌握 了 Python 语言 的 大 部 分 基础 知识 。Python 不 仅 语言 核心 非常 强大 ， 还 提供 了 其 
他 工具 以 供 使 用 。 标 准 安装 包含 一 组 称 为 标准 库 ( standard library ) 的 模块 ， 你 见 过 其 中 的 一 些 
( 如 math 和 cmath )， 但 还 有 其 他 很 多 。 本 章 简 要 介绍 模块 的 工作 原理 以 及 如 何 探索 模块 以 获悉 其 
提供 的 功能 ， 然 后 概述 标准 库 ， 重 点 是 几 个 很 有 用 的 模块 。 


10.1 模块 


你 已 知道 如 何 创建 和 执行 程序 ( 或 脚本 )， 还 知道 如 何 使 用 import 将 函数 从 外 部 模块 导入 到 
程序 中 。 


>>> import math 
>>> math.sin(0) 
0.0 


下 面 来 看 看 如 何 编写 自己 的 模块 。 


10.1.1 ”模块 就 是 程序 


任何 Python 程 序 都 可 作为 模块 导入 。 假 设 你 编写 了 代码 清单 10-1 所 示 的 程序 ， 并 将 其 保存 在 
文件 hello.py 中 ， 这 个 文件 的 名 称 ( 不 包括 扩展 名 .py ) 将 成 为 模块 的 名 称 。 


代码 清单 10-1 一 个 简单 的 模块 

# hello.py 

print("Hello, world!") 

文件 的 存储 位 置 也 很 重要 ， 将 在 下 一 节 详 细 介绍 。 这 里 假设 这 个 文件 存储 在 目录 C:python 
(Windows ) 或 ~/python( UNIX/macOSs ) 中 。 

要 告诉 解释 器 去 哪里 查找 这 个 模块 ， 可 执行 如 下 命令 (以 Windows 目 录 为 例 ): 


>>> import sys 
>>> sys.path.append('C:/python') 
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提示 “在 UNIX 中 ， 不 能 直接 将 字符 串 '~/python' 附加 到 sys.path 末 尾 ， 而 必须 使 用 完整 的 路 径 
( 如 '/home/yourusername/python' )。 如 果 你 要 自动 创建 完整 的 路 径 ， 可 使 用 sys.path. 
expanduser('~/python' )。 








这 告诉 解释 器 ， 除 了 通常 将 查找 的 位 置 外 , 还 应 到 目录 C:python 中 去 查找 这 个 模块 。 这 样 做 
就 可 以 导入 这 个 模块 了 ( 它 存储 在 文件 C:\python\hello.py 中 )。 


>>> import hello 
Hello, world! 























孙 





注意 ” 当 你 导入 模块 时 ,可 能 发 现 其 所 在 目录 中 除 源 代码 文件 外 ,还 新 建 了 一 个 名 为 “pycache 
的 子 目 录 (在 较 旧 的 Python 版 本 中 ， 是 扩展 名 为 .pyc 的 文件 )。 这 个 目录 包含 处 理 后 的 文 
件 ，Python 能 够 更 高 效 地 处 理 它 们 。 以 后 再 导入 这 个 模块 时 ， 如 果 .py 文 件 未 发 生变 化 ， 
Python 将 导入 处 理 后 的 文件 ， 否 则 将 重新 生成 处 理 后 的 文件 。 删 除 目录 pycache 不 会 
有 任何 害处 ， 因 为 必要 时 会 重新 创建 它 。 





如 你 所 见 , 导入 这 个 模块 时 , 执行 了 其 中 的 代码 。 但 如 果 再 次 导入 它 , 什么 事情 都 不 会 发 生 。 


>>> import hello 
>>> 


这 次 为 何 没 有 执行 代码 呢 ? 因为 模块 并 不 是 用 来 执行 操作 〈 如 打印 文本 ) 的 , 而 是 用 于 定义 
变量 、 函 数 、 类 等 。 鉴 于 定义 只 需 做 一 次 ， 因 此 导入 模块 多 次 和 导入 一 次 的 效果 相同 。 


为 何 只 导入 一 次 


在 大 多 数 情况 下 ， 只 导入 一 次 是 重要 的 优化 ， 且 在 下 述 特殊 情况 下 显得 尤为 重要 : 两 个 

在 很 多 情况 下 ， 你 可 能 编写 两 个 这 样 的 模块 : 需要 彼此 访问 对 方 的 函数 和 类 才能 正确 地 
发 挥 作用 。 例 如 ， 你 可 能 创建 了 两 个 模块 clientdb 和 billing， 分别 包 含 客户 数据 库 和 记 账 系 
统 的 代码 。 客 户 数据 库 可 能 包含 对 记 账 系统 的 调用 ( 如 每 月 自动 向 客户 发 送 账单 ) ， 而 记 账 系 
统 可 能 需要 访问 客户 数据 库 的 功能 才能 正确 地 完成 记 账 。 

在 这 里 ， 如 果 每 个 模块 都 可 导入 多 次 ， 就 会 出 现 问题 。 模 块 clientdb 导 入 billing， 而 
billing 又 导入 clientdb， 结 果 可 想 而 知 : 最 终 将 形成 无 穷 的 导入 循环 ( 还 记得 无 穷 递归 吗 ) 。 
然而 ， 由 于 第 二 次 导入 时 什么 都 不 会 发 生 ， 这 种 循环 被 打破 。 

如 果 一 定 要 重新 加 载 模块 ， 可 使 用 模块 importlib 中 的 函数 reload， 它 接受 一 个 参数 (要 
重新 加 载 的 模块 )， 并 返回 重新 加 载 的 模块 。 如 果 在 程序 运行 时 修改 了 模块 ， 并 希望 这 种 修改 
反映 到 程序 中 ， 这 将 很 有 用 。 要 重新 加 载 前 述 简 单 的 模块 hello ( 它 只 包含 一 条 print 语 句 ) ， 
可 像 下 面 这 样 做 : 
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>>> import importlib 
>>> hello = importlib.reload(hello) 
Hello, world! 


这 里 假设 hello 已 导入 (一次) 。 通 过 将 函数 reload 的 结果 赋 给 hello， 用 重新 加 载 的 版 本 
替换 了 以 前 的 版 本 。 由 于 打印 出 了 问候 语 ， 说 明 这 里 确实 导入 了 这 个 模块 。 

通过 实例 化 模块 bar 中 的 类 Foo 创 建 对 象 x 后 ， 如 果 重 新 加 载 模块 bar， 并 不 会 重新 创建 x 指 
向 的 对 象 ， 即 x 依然 是 (来自 旧版 bar 的 ) 旧版 Foo 的 对 象 。 要 让 x 指 向 基于 重新 加 载 的 模块 中 的 
Foo 创 建 的 对 象 ， 需 要 重新 创建 它 。 


10.1.2 ”模块 是 用 来 下 定义 的 


模块 在 首次 被 导入 程序 时 执行 。 这 看 似 有 点 用 , 但 用 处 不 大 。 让 模块 值得 被 创建 的 原因 在 于 
它们 像 类 一 样 , 有 自己 的 作用 域 。 这 意味 着 在 模块 中 定义 的 类 和 函数 以 及 对 其 进行 赋值 的 变量 都 
将 成 为 模块 的 属性 。 这 看 似 复杂 ， 但 实际 上 非常 简单 。 

1. 在 模块 中 定义 函数 

假设 你 编写 了 一 个 类 似 于 代码 清单 10-2 所 示 的 模块 ， 并 将 其 存储 在 文件 hello2.py 中 。 另 外 ， 
假设 你 将 这 个 文件 放 在 了 Python 解释 器 能 够 找到 的 地 方 〈 可 像 前 一 节 介 绍 的 那样 使 用 sys .path， 
也 可 使 用 10.1.3 节 介绍 的 传统 方式 )。 


























提示 像 处 理 模块 那样 ， 让 程序 ( 这 意味 着 将 被 执行 , 而 不 是 用 作 模 块 ) 可 用 后 ， 可 使 用 Python 
解释 器 开关 -m 来 执行 它 。 如 果 随 其 他 模块 一 起 安装 了 文件 progname.py (请 注意 扩展 名 )， 
即 导 入 了 progname ， 命 令 python -m progname airgs 将 使 用 命令 行 参数 args 来 执行 程序 


progname。 


代码 清单 10-2 只 包含 一 个 函数 的 简单 模块 


# hello2.py 
def hello(): 
print("Hello, world!") 


现在 可 以 像 下 面 这 样 导入 它 : 

>>> import hello2 

这 将 执行 这 个 模块 ， 也 就 是 在 这 个 模块 的 作用 域内 定义 函数 hello， 因 此 可 像 下 面 这 样 访问 
这 个 函数 : 


>>> hello2.hello() 
Hello, world! 


在 模块 的 全 局 作用 域内 定义 的 名 称 都 可 像 上 面 这 样 访问 ,为 何 要 这 样 做 呢 ” 为 何不 在 主 程序 
中 定义 一 切 呢 ? 
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主要 是 为 了 重用 代码 。 通 过 将 代码 放 在 模块 中 ,就 可 在 多 个 程序 中 使 用 它们 。 这 意味 着 如 果 
你 编写 了 一 个 出 色 的 客户 数据 库 , 并 将 其 放 在 模块 clientdb 中 , 就 可 在 记 账 时 、 发 送 垃圾 邮件 (但 
愿 你 不 会 这 样 做 ) 时 以 及 任何 需要 访问 客户 数据 的 程序 中 使 用 它 。 如 果 没 有 放 在 独立 的 模块 中 ， 
就 需 在 每 个 这 样 的 程序 中 重新 编写 它 。 因 此 ， 要 让 代码 是 可 重用 的 ， 务 必 将 其 模块 化 ! ( 这 也 与 
抽象 紧密 相关 。 ) 

2. 在 模块 中 添加 测试 代码 

模块 用 于 定义 函数 和 类 等 ， 但 在 有 些 情况 下 〈 实际 上 是 经 常 )， 添 加 一 些 测试 代码 来 检查 情 
况 是 否 符 合 预 期 很 有 用 。 例 如 ， 如 果 要 确认 函数 hello 管 用 ， 你 可 能 将 模块 hello2 重 写 为 代码 清 
单 10-3 所 示 的 模块 hello3。 


代码 清单 10-3 一 个 简单 的 模块 ， 其 中 的 测试 代码 有 问题 


# hello3.py 
def hello(): 
print("Hello, world!") 
























































# 一 个 测试 : 

hello() 

这 看 似 合理 : 如 果 将 这 个 模块 作为 普通 程序 运行 将 发 现 它 运行 正常 。 然 而 ， 如 果 在 另 一 个 
程序 中 将 其 作为 模块 导入 , 以 便 能 够 使 用 函数 hello, 也 将 执行 测试 代码 , 就 像 本 章 的 第 一 个 hello 
模块 一 样 。 

>>> import hello3 

Hello, world! 


>>> hello3.hello() 
Hello, world! 


这 不 是 你 想 要 的 结果 。 要 避免 这 种 行为 , 关键 是 检查 模块 是 作为 程序 运行 还 是 被 导入 男 一 个 


程序 。 为 此 ， 需 要 使 用 变量 _name 。 0 
>>> _ name 


"main 
>>> hello3. name 
'hello3" 


如 你 所 见 , 在 主 程序 中 (包括 解释 器 的 交互 式 提示 符 ), 变量 _name 的 值 是 ' ”main ', 而 
在 导入 的 模块 中 ， 这 个 变量 被 设置 为 该 模块 的 名 称 。 因 此 ， 要 让 模块 中 测试 代码 的 行为 更 合理 ， 
可 将 其 放 在 一 条 if 语句 中 ， 如 代码 清单 10-4 所 示 。 
代码 清单 10-4 一 个 包含 有 条 件 地 执行 的 测试 代码 的 模块 


# hello4.py 

































































def hello(): 
print("Hello, world!") 


def test(): 
hello() 


if name == "main ': test() 
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如 果 将 这 个 模块 作为 程序 运行 ,将 执行 函数 hello; 如 果 导 入 它 ， 其 行为 将 像 普通 模块 一 样 。 
>>> import hello4 


>>> hello4.hello() 
Hello, world! 


如 你 所 见 ， 我 将 测试 代码 放 在 了 函数 test 中 。 原 本 可 以 将 这 些 代码 直接 放 在 if 语 句 中 , 但 通 
过 将 其 放 在 一 个 独立 的 测试 函数 中 ， 可 在 程序 中 导入 模块 并 对 其 进行 测试 。 


>>> hello4.test( 
Hello, world! 














注意 ”如果 要 编写 更 详尽 的 测试 代码 ， 将 其 放 在 一 个 独立 的 程序 中 可 能 是 个 不 错 的 主意 。 有 关 
如 何 编 写 测试 的 详细 信息 ， 请 参阅 第 16 章 。 


10.1.3 ”让 模块 可 用 


在 前 面 的 示例 中 ， 我 修改 了 sys.path。sys.path 包 含 一 个 目录 ( 表示 为 字符 串 ) 列表 ,解释 
器 将 在 这 些 目录 中 查找 模块 。 然 而 ， 通 常 你 不 想 这 样 做 。 最 理想 的 情况 是 ，sys.path 一 开始 就 包 
含 正 确 的 目录 ( 你 的 模块 所 在 的 目录 )。 为 此 有 两 种 办 法 : 将 模块 放 在 正确 的 位 置 ; 告诉 解释 器 
到 哪里 去 查找 。 接 下 来 的 两 节 将 分 别 讨论 这 两 种 解决 方案 。 如果 要 让 别人 能 够 轻松 地 使 用 你 的 模 
块 , 那 就 是 男 外 一 人 码 事 了 ,Python 打包 技术 一 度 日 益 复杂 、 各 自 为 政 , 尽管 现 已 被 Python Packaging 
Authority 控 制 并 简化 ， 但 需要 学 习 的 还 是 有 很 多 。 这 里 不 深入 介绍 这 个 环 手 的 主题 ， 建 议 参 阅 
“Python 打包 用 户 指南 ": packaging.python.org。 

1. 将 模块 放 在 正确 的 位 置 

将 模块 放 在 正确 的 位 置 很 容易 ， 只 需 找 出 Python 解释 器 到 哪里 去 查找 模块 ， 再 将 文件 放 在 这 
个 地 方 即 可 。 在 你 使 用 的 计算 机 中 ,如果 Python 解 释 器 是 管理 员 安 装 的 , 而 你 有 没有 管理 员 权 限 ， 
就 可 能 无 法 将 模块 保存 到 Python 使 用 的 目录 中 。 在 这 种 情况 下 ， 需 要 采用 随后 要 介绍 的 另 一 种 解 
决 方案 : 告诉 解释 器 去 哪里 查找 。 

你 可 能 还 记得 ， 可 在 模块 sys 的 变量 path 中 找到 目录 列表 ( 即 搜 索 路 径 )。 


>>> import sys, pprint 

>>> pprint.pprint(sys.path) 

['C:\\Python35\\Lib\\idlelip', 
'C:\\Python35', 
'C:\\Python35\\DLLs', 
'C:\\Python35\\1ib', 
'C:\\Python35\\1ib\\plat-win', 
'C:\\Python35\\1ib\\lib-tk', 
'C:\\Python35\\lib\\site-packages'] 































































































提示 ”如果 要 打印 的 数据 结构 太 大 , 一 行 容纳 不 下 ,可 使 用 模块 pprint 中 的 函数 pprint ( 而 不 是 
普通 print 语 句 )。pprint 是 个 卓越 的 打印 函数 ， 能 够 更 妥善 地 打印 输出 。 


10.1 模块 177 




















当然 ,你 得 到 的 打印 结果 可 能 与 这 里 显示 的 不 完全 相同 。 这 里 的 要 点 是 , 每 个 字符 串 都 表示 
一 个 位 置 ， 如 果 要 让 解释 器 能 够 找到 模块 ,可 将 其 放 在 其 中 任何 一 个 位 置 中 。 虽然 放 在 这 里 显示 
的 任何 一 个 位 置 中 都 可 行 ， 但 目录 site-packages 是 最 佳 的 选择 ， 因 为 它 就 是 用 来 放置 模块 的 。 请 
在 你 的 计算 机 中 查看 sys .path , 找到 目录 site-packages, 并 将 代码 清单 10-4 所 示 的 模块 保存 到 这 里 ， 
但 要 使 用 另 一 个 名 称 ， 如 another_ hello.py。 然 后 ， 尝 试 像 下 面 这 样 做 : 


>>> import another hello 
>>> another hello.hello() 
Hello, world! 


只 要 模块 位 于 类 似 于 site-packages 这 样 的 地 方 ， 所 有 的 程序 就 都 能 够 导入 它 。 
2. 告诉 解释 器 到 哪里 去 查找 
将 模块 放 在 正确 的 位 置 可 能 不 是 合适 的 解决 方案 ， 其 中 的 原因 很 多 。 
口 不 希望 Python 解释 器 的 目录 中 充斥 着 你 编写 的 模块 。 
口 没有 必要 的 权限 ， 无 法 将 文件 保存 到 Python 解释 需 的 目录 中 。 
口 想 将 模块 放 在 其 他 地 方 。 

最 重要 的 是 ， 如 果 将 模块 放 在 其 他 地 方 ， 就 必须 告诉 解释 器 到 哪里 去 查找 。 前 面 说 过 ， 要 告 
诉 解释 器 到 哪里 去 查找 模块 ， 办 法 之 一 是 直接 修改 sys.path， 但 这 种 做 法 不 常见 。 标 准 做 法 是 将 
模块 所 在 的 目录 包含 在 环境 变量 PYTHONPATH 中 。 

环境 变量 PYTHONPATH 的 内 容 随 操作 系统 而 异 ( 参见 旁 注 “环境 变 
sys.path， 也 是 一 个 目录 列表 。 



























































































































































”), 但 它 基 本 上 类 似 于 


亏 




















环境 变量 


环境 变量 并 不 是 Python 解释 器 的 一 部 分 ， 而 是 操作 系统 的 一 部 分 。 大 致 而 言 ， 它 们 类 似 
于 Python 变量 ， 但 是 在 Python 解释 器 外 面 设置 的 。 如 果 你 使 用 的 是 bash shell (在 大 多 数 类 
UNIX 系 统 、macOS 和 较 新 的 Windows 版 本 中 都 有 )， 就 可 使 用 如 下 命令 将 */python 附 加 到 环境 
变量 PYTHONPATH 末 尾 : 

export PYTHONPATH=$PYTHONPATH:~/python 

如 果 要 对 所 有 启动 的 shell 都 执行 这 个 命令 ， 可 将 其 添加 到 主 目 录 中 的 .bashrc 文 件 中 。 关 
于 如 何以 其 他 方式 编辑 环境 变量 ， 请 参阅 操作 系统 文档 。 














除 使 用 环境 变量 PYTHONPATH 外 ， 还 可 使 用 路 径 配 置 文件 。 这 些 文件 的 扩展 名 为 .pth， 位 于 一 
些 特殊 目录 中 ， 包 含 要 添加 到 sys.path 中 的 目录 。 有 关 这 方面 的 详细 信息 ， 请 参阅 有 关 模 块 site 
的 标准 库 文 档 。 


10.1.4 包 


为 组 织 模块 ， 可 将 其 编组 为 包 ( package )。 包 其 实 就 是 男 一 种 模块 ,但 有 趣 的 是 它们 可 包含 其 
他 模块 。 模块 存储 在 扩展 名 为 .py 的 文件 中 ,而 包 则 是 一 个 目录 。 要 被 Python 视 为 包 ， 目录 必须 包含 
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文件 _init _.py。 如 果 像 普通 模块 一 样 导 入 包 , 文件 _init .py 的 内 容 就 将 是 包 的 内 容 。 例 如 ,如果 
有 一 个 名 为 constants 的 包 ， 而 文件 constants/_init .py 包含 语句 PI = 3.14， 就 可 以 像 下 面 这 样 做 : 


import constants 
print(constants.PI) 


要 将 模块 加 入 包 中 , 只 需 将 模块 文件 放 在 包 目 录 中 即 可 。 你 还 可 以 在 包 中 艇 套 其 他 包 。 例如， 
要 创建 一 个 名 为 drawing 的 包 ， 其 中 包含 模块 shapes 和 colors， 需 要 创建 如 表 10-1 所 示 的 文件 和 目 
录 (UNIX 路 径 名 )。 




















表 10-1 一 种 简单 的 包 布 局 


























文件 /目录 描述 
~/python/ PYTHONPATH 中 的 目录 
~/python/drawing/ 包 目 录 ( 包 drawing ) 
~/python/drawing/ init .py 包 代 码 ( 模块 drawing ) 
~/python/drawing/colors.py 模块 colors 
~/python/drawing/shapes.py 模块 shapes 








完成 这 些 准 备 工作 后 ， 下 面 的 语句 都 是 合法 的 : 


import drawing # (1) 导入 drawing 包 
import drawing.colors # (2) 导入 drawing 包 中 的 模块 colors 
from drawing import shapes # (3) 导入 模块 shapes 


执行 第 1 条 语句 后 ， 便 可 使 用 目录 drawing 中 文件 _init .py 的 内 容 ， 但 不 能 使 用 模块 shapes 
和 colors 的 内 容 。 执 行 第 2 条 语句 后 ， 便 可 使 用 模块 colors,， 但 只 能 通过 全 限定 名 drawing.colors 
来 使 用 。 执 行 第 3 条 语句 后 ， 便 可 使 用 简化 名 ( 即 shapes ) 来 使 用 模块 shapes。 请 注意 ， 这 些 语 
句 只 是 示例 ,并 不 用 像 这 里 做 的 那样 ， 先 导入 包 再 导入 其 中 的 模块 。 换 而 言 之 ,完全 可 以 只 使 用 
第 2 条 语句 ， 第 3 条 语句 亦 如 此 。 


10.2 ”探索 模块 


介绍 一 些 标准 库 模块 前 , 先 来 说 说 如 何 探索 模块 。 这 是 一 种 很 有 用 的 技能 , 因为 在 你 的 Python 
程序 员 职 业 生涯 中 ,将 遇 到 很 多 很 有 用 的 模块 ， 而 这 里 无 法 一 一 介绍 。 当 前 的 标准 库 很 大 ,足以 
编写 专著 来 论述 ( 市面 上 也 确实 有 这 样 的 专著 )， 而 且 还 在 不 断 增 大 。 每 个 新 Python 版 本 都 新 增 
了 模块 ， 通 常 还 会 对 一 些 既 有 模块 进行 细微 的 修改 和 改进 。 另 外 ,你 在 网 上 肯定 会 找到 一 些 很 有 
用 的 模块 。 如 果 能 快速 而 轻松 地 理解 它们 ， 编 程 工作 将 有 趣 得 多 。 


10.2.1 ”模块 包含 什么 


要 探索 模块 ， 最 直接 的 方式 是 使 用 Python 解释 器 进行 研究 。 为 此 ， 首 先 需要 将 模块 导入 。 假 
设 你 听 说 有 一 个 名 为 copy 的 标准 模块 。 
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>>> import copy 

没有 引发 异常 , 说 明确 实 有 这 样 的 模块 。 但 这 个 模块 是 做 什么 用 的 呢 ? 它 都 包含 些 什 么 呢 ? 

1. 使 用 dir 

要 查 明 模块 包含 哪些 东西 ， 可 使 用 函数 dirz， 它 列 出 对 象 的 所 有 属性 〈 对 于 模块 ， 它 列 出 所 
有 的 函数 、 类 、 变 量 等 )。 如 果 将 dir(copy) 的 结果 打印 出 来 ， 将 是 一 个 很 长 的 名 称 列表 ( 请 试 试 
看 )。 在 这 些 名 称 中 ， 有 几 个 以 下 划 线 打头 。 根 据 约定 ， 这 意味 着 它们 并 非 供 外 部 使 用 。 有 鉴于 
此 , 我 们 使 用 一 个 简单 的 列表 推导 将 这 些 名 称 过 滤 掉 ( 如 果 你 忘记 了 列表 推导 的 工作 原理 ,请 参 
阅 5.6 节 )。 

>>> [n for n in dir(copy) if not n.startswith(' )] 

['Error', 'PyStringMap', 'copy', 'deepcopy', 'dispatch table', 'error', 'name', 't', 'weakref'] 


结果 包含 dir(copy) 返 回 的 不 以 下 划 线 打头 的 名 称 ， 这 比 完整 清单 要 好 懂 些 。 

2. 变量 _all 

在 前 一 节 中 , 我 使 用 简单 的 列表 推导 来 猜测 可 在 模块 copy 中 看 到 哪些 内 容 , 然而 可 直接 咨询 
这 个 模块 来 获得 正确 的 答案 。 你 可 能 注意 到 了 ,在 dir(copy) 返 回 的 完整 清单 中 ,包含 名 称 _all 。 
这 个 变量 包含 一 个 列表 , 它 与 前 面 使 用 列表 推导 创建 的 列表 类 似 , 但 是 在 模块 内 部 设置 的 。 下 面 
来 看 看 这 个 列表 包含 的 内 容 : 


>>> copy. all 
['Error', 'copy', 'deepcopy'] 







































































前 面 的 猜测 不 算 太 离谱 ， 只 是 多 了 几 个 并 非 供用 户 使 用 的 名 称 。 这 个 _all_ 列表 是 怎么 来 
的 呢 ? 为 何 要 提供 它 ” 第 一 个 问题 很 容易 回答 : 它 是 在 模块 copy 中 像 下 面 这 样 设置 的 (这 些 代码 
是 直接 从 copypy 复 制 而 来 的 ); 

_all = ["Error", "copy", "deepcopy"] 

为 何 要 提供 它 呢 ? 旨 在 定义 模块 的 公有 接口 。 具 体 地 说 , 它 告诉 解释 器 从 这 个 模块 导入 所 有 
的 名 称 意味 着 什么 。 因 此 ， 如 果 你 使 用 如 下 代码 : 

from copy import * 

将 只 能 得 到 变量 _all 中 列 出 的 4 个 函数 。 要 导入 PystringMap， 必 须 显 式 地 : 导入 copy 并 使 用 
copy.PystringMap; 或 者 使 用 from copy import PystringMap。 

编写 模块 时 , 像 这 样 设置 all 也 很 有 用 。 因 为 模块 可 能 包含 大 量 其 他 程序 不 需要 的 变量 、 
函数 和 类 ,比较 周全 的 做 法 是 将 它们 过 滤 掉 。 如 果 不 设置 _all _， 则 会 在 以 import * 方 式 导入 时 ， 
导入 所 有 不 以 下 划 线 打头 的 全 局 名 称 。 


10.2.2 ”使 用 help 获取 帮助 

前 面 一 直 在 巧妙 地 利用 你 熟悉 的 各 种 Python 函数 和 特殊 属性 来 探索 模块 copy。 对 这 种 探索 来 
说 , 交互 式 解释 器 是 一 个 强大 的 工具 , 因为 使 用 它 来 探测 模块 时 , 探测 的 深度 仅 受 限于 你 对 Python 
语言 的 掌握 程度 。 然 而 ， 有 一 个 标准 函数 可 提供 你 通常 需要 的 所 有 信息 ， 它 就 是 help。 下 面 来 尝 
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试 使 用 它 获 取 有 关 函 数 copy 的 信息 : 
>>> help(copy.copy) 
Help on function copy in module copy: 


copy(x) 
Shallow copy operation on arbitrary Python objects. 


See the module's doc string for more info. 
上 述 帮 助 信息 指出 ， 函 数 copy 只 接受 一 个 参数 x， 且 执行 的 是 浅 复 制 。 在 帮助 信息 中 ， 还 提 
到 了 模块 的 _doc_ 字 符 串 。_doc_ 字符 串 是 什么 呢 ? 你 可 能 还 记得 ， 第 6 章 提 到 了 文档 字符 串 。 
文档 字符 串 就 是 在 函数 开头 编写 的 字符 串 ， 用 于 对 函数 进行 说 明 ， 而 函数 的 属性 _doc_ 可 能 
含 这 个 字符 串 。 从 前 面 的 帮助 信息 可 知 ， 模 块 也 可 能 有 文档 字符 囊 ( 它们 位 于 模块 的 开头 )， 而 
类 也 可 能 如 此 (位 于 类 的 开头 )。 
实际 上 ， 前 面 的 帮助 信息 是 从 函数 copy 的 文档 字符 串 中 提取 的 : 


>>> print(copy.copy. doc ) 
Shallow copy operation on arbitrary Python objects. 


















































See the module's doc string for more info. 

相 比 于 直接 查看 文档 字符 串 ， 使 用 help 的 优点 是 可 获取 更 多 的 信息 ， 如 函数 的 特征 标 ( 即 它 
接受 的 参数 )。 请 尝试 对 模块 copy 本 身 调 用 help， 看 看 将 显示 哪些 信息 。 这 将 打印 大 量 的 信息 ， 
包括 对 copy 和 deepcopy 之 间 差 别 的 详细 讨论 (大 致 而 言 ，deepcopy(x) 创 建 x 的 属性 的 副本 并 依 此 
类 推 ; 而 copy(x) 只 复制 x， 并 将 副本 的 属性 关联 到 x 的 属性 值 )。 


10.2.3 文档 


显然 , 文档 是 有 关 模 块 信息 的 自然 来 源 。 我 之 所 以 到 现在 才 讨 论文 档 , 是 因为 查看 模块 本 身 
要 快 得 多 。 例 如 ， 你 可 能 想 知道 range 的 参数 是 什么 ? 在 这 种 情况 下 ， 与 其 在 Python 图 书 或 标准 
Python 文档 中 查找 对 range 的 描述 ， 不 如 直接 检查 这 个 函数 。 


>>> print(range. doc ) 
range(stop) -> range object 
range(start, stop[, step]) -> range object 











Ud 


















































Return an object that produces a sequence of integers from start (inclusive) 
to stop (exclusive) by step. range(i, j) produces i, i+1, i+2, ..., j-1. 
start defaults to 0, and stop is omitted! range(4) produces 0，1，2，3. 
These are exactly the valid indices for a list of 4 elements. 

When step is given, it specifies the increment (or decrement). 


这 样 就 获得 了 函数 range 的 准确 描述 。 男 外 ， 由 于 通常 是 在 编程 时 想 了 解 函 数 的 功能 ， 而 此 
时 Python 解 释 器 很 可 能 正在 运行 ， 因 此 获取 这 些 信息 只 需 儿 秒 钟 。 
然而 ,并非 每 个 模块 和 函数 都 有 详尽 的 文档 字符 串 (虽然 应 该 如 此 )， 且 有 时 需要 有 关 工 作 
原理 的 更 详尽 描述 。 从 网 上 下 载 的 大 多 数 模 块 都 有 配套 文档 。 就 学 习 Python 编 程 而 言 ， 最 有 用 的 
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文档 是 “Python 库 参 考 手册 ”, 它 描 述 了 标准 库 中 的 所 有 模块 。 在 需要 获悉 一 些 有 关 Python 的 事实 
时 , 十 有 八 九 能 在 这 里 找到 。“Python 库 参考 手册 ”( https://docs.python.org/library ) 可 在 线 浏 览 和 
下 载 ， 几 个 其 他 的 标准 文档 ( 如 “Python 入 门 指南 ”和 “Python 语言 参考 手册 ”) 也 是 如 此 。 所 
有 的 文档 都 可 在 Python 网 站 ( https://docs.python.org ) 上 找到 。 


10.2.4 ”使 用 源 代码 


在 大 多 数 情况 下 ， 前 面 讨论 的 探索 技巧 都 够 用 了 。 但 要 真正 理解 Python 语言 ， 可 能 需要 了 解 
一 些 不 阅读 源 代 码 就 无 法 了 解 的 事情 。 事 实 上 ， 要 学 习 Python， 阅 读 源 代 码 是 除 动手 编写 代码 外 
的 最 佳 方式 。 

实际 阅读 源 代码 应 该 不 成 问题 , 但 源 代 码 在 哪里 呢 ? 假设 你 要 阅读 标准 模块 copy 的 代码 ,可 
以 在 什么 地 方 找到 呢 ? 一 种 办 法 是 像 解 释 器 那样 通过 sys.path 来 查找 , 但 更 快捷 的 方式 是 查看 模 
块 的 特性 _file 。 


>>> print(copy. file ) 
C:\Python35\lib\copy.py 


找到 了 ! 你 可 在 代码 编辑 器 ( 如 IDLE ) 中 打开 文件 copy.py， 并 开始 研究 其 工作 原理 。 如 果 
列 出 的 文件 名 以 .pyc 结 尾 ， 可 打开 以 .py 结尾 的 相应 文件 。 















































警告 ”在 文本 编辑 器 中 打开 标准 库 文件 时 ， 存 在 不 小 心 修改 它 的 风险 。 这 可 能 会 破坏 文件 。 因 
此 关闭 文件 时 ， 千 万 不 要 保存 你 可 能 对 其 所 做 的 修改 。 


请 注意 ， 有 些 模块 的 源 代 码 你 完全 无 法 读 懂 。 它 们 可 能 是 解释 器 的 组 成 部 分 (如 模块 sys )， 
还 可 能 是 使 用 C 语 言 编 写 的 "。( 有 关 如 何 使 用 C 语 言 扩 展 Python 的 详细 信息 ， 请 参阅 第 17 章 。) 
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在 Python 中 ， 短 语 “ 开 箱 即 用 ”( batteries included ) 最 初 是 由 Frank Stajano 提 出 的 ， 指 的 是 
Python 丰富 的 标准 库 。 安 装 Python 后 ， 你 就 免费 获得 了 大 量 很 有 用 的 模块 。 鉴 于 有 很 多 方式 可 以 
获取 有 关 这 些 模块 的 详细 信息 〈 本 章 前 面 介绍 过 )， 这 里 不 打算 提供 完整 的 参考 手册 ( 如 果 这 样 
做 将 占据 很 大 的 篇 幅 )， 而 只 是 描述 几 个 我 喜欢 的 标准 模块 ， 以 激发 你 的 探索 兴趣 。 在 本 书后 面 
介绍 项 目的 章节 (第 20 章 ~ 第 29 章 ) 中 ， 你 将 遇 到 其 他 的 标准 模块 。 这 里 对 模块 的 描述 并 非 面 面 
俱 到 ， 只 是 将 重点 放 在 模块 的 一 些 有 趣 功能 上 。 
































10.3.1 sys 
模块 sys 让 你 能 够 访问 与 Python 解 释 右 紧密 相关 的 变量 和 函数 ， 表 10-2 列 出 了 其 中 的 一 些 。 

















Q 如 果 模块 是 使 用 C 语 言 编 写 的 ， 应 该 能 够 获取 其 C 语 言 源 代码 。 
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表 10-2 ”模块 sys 中 一 些 重要 的 函数 和 变量 







































































函数 /变量 描 述 
az8v 命令 行 参数 ， 包 括 脚本 名 
exit([arg]) 退出 当前 程序 ， 可 通过 可 选 参数 指定 返回 值 或 错误 消息 
modules 一 个 字典 ， 将 模块 名 映射 到 加 载 的 模块 
path 一 个 列表 ， 包含 要 在 其 中 查找 模块 的 目录 的 名 称 
platform 一 个 平台 标识 符 ， 如 sunos5 或 win32 
stdin 标准 输入 流 一 一 一 个 类 似 于 文件 的 对 象 
stdout 标准 输出 流 一 一 一 个 类 似 于 文件 的 对 象 
Stderr 标准 错误 流 一 一 一 个 类 似 于 文件 的 对 象 














变量 sys.argv 包 含 传递 给 Python 解释 器 的 参数 ， 其 中 包括 脚本 名 。 

函数 sys.exit 退 出 当前 程序 。( 在 第 8 章 讨论 的 try/finally 块 中 调用 它 时 ,finally 子 句 依 然 会 
执行 。) 你 可 向 它 提供 一 个 整数 ， 指 出 程序 是 否 成 功 ,这 是 一 种 UNIX 约 定 。 在 大 多 数 情 况 下 , 使 
用 该 参数 的 默认 值 (0， 表 示 成 功 ) 即 可 。 也 可 向 它 提 供 一 个 字符 串 ， 这 个 字符 串 将 成 为 错误 消 
息 ， 对 用 户 找 出 程序 终止 的 原因 很 有 帮助 。 在 这 种 情况 下 ,程序 退出 时 将 显示 指定 的 错误 消息 以 
及 一 个 表示 失败 的 编码 。 

映射 sys .modules 将 模块 名 映射 到 模块 ( 仅 限 于 当前 已 导入 的 模块 )。 

变量 sys .path 在 本 章 前 面 讨论 过 , 它 是 一 个 字符 串 列 表 , 其 中 的 每 个 字符 串 都 是 一 个 目录 名 ， 
执行 import 语 句 时 将 在 这 些 目录 中 查找 模块 。 

变量 sys.platform (一 个 字符 串 ) 是 运行 解释 器 的 “平台 ”名 称 。 这 可 能 是 表示 操作 系统 的 名 
称 (如 sunos5 或 win32 )， 也 可 能 是 表示 其 他 平台 类 型 ( 如 Java 虚 拟 机 ) 的 名 称 〈 如 javal1.4.0 ) 一 一 
如 果 你 运行 的 是 Jython。 

变量 sys.stdin、sys.stdout 和 sys.stderr 是 类 似 于 文件 的 流 对 象 ， 表 示 标 准 的 UNIX 概 念 : 
标准 输入 、 标 准 输出 和 标准 错误 。 简单 地 说 ,Python 从 sys.stdin 获 取 输 入 (例如 ,用 于 input 中 )， 
并 将 输出 打印 到 sys.stdout。 有 关 文 件 和 这 三 个 流 的 详细 信息 ， 请 参阅 第 11 童 。 

举 个 例子 ， 来 看 看 按 相反 顺序 打印 参数 的 问题 。 从 命令 行 调用 Python 脚 本 时 ,你 可 能 指定 一 
些 参 数 ， 也 就 是 所 谓 的 命令 行 参 数 。 这 些 参数 将 放 在 列表 sys .argv 中 ， 其 中 sys.argv[0] 为 Python 
脚本 名 。 按 相反 的 顺序 打印 这 些 参 数 非常 容易 ， 如 代码 清单 10-5 所 示 。 


代码 清单 10-5 反 转 并 打印 命令 行 参 数 


# reverseargs.py 
import sys 

args = sys.argv[1:] 
args.reverse() 
print(' '.join(args)) 


如 你 所 见 ， 我 创建 了 一 个 sys .argv 的 副本 。 也 可 修改 sys .argv， 但 一 般 而 言 ， 不 这 样 做 更 安 
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全 ， 因 为 程序 的 其 他 部 分 可 能 依赖 于 包含 原始 参数 的 sys.argv。 另 外 ， 注意 到 我 跳 过 了 sys.argv 
的 第 一 个 元 素 ， 即 脚本 的 名 称 。 我 使 用 args.reverse() 反 转 这 个 列表 ， 但 不 能 打印 这 个 操作 的 返 
回 值 ， 因 为 它 就 地 修改 列表 并 返回 None。 下 面 是 另 一 种 解决 方案 : 

print(' '.join(reversed(sys.argv[1:1))) 

最 后 ,为 美化 输出 ,我 使 用 了 字符 串 的 方法 join。 下 面 来 尝试 运行 这 个 程序 (假设 使 用 的 是 
bash shell )。 


$ python reverseargs.py this is a test 
test a is this 





10.3.2 os 


模块 os 让 你 能 够 访问 多 个 操作 系统 服务 。 它 包含 的 内 容 很 多 ， 表 10-3 只 描述 了 其 中 几 个 最 有 
用 的 函数 和 变量 。 除 此 之 外 ，os 及 其 子 模块 os.path 还 包含 多 个 查看 、 创 建 和 删除 目录 及 文件 的 
函数 ， 以 及 一 些 操作 路 径 的 函数 ( 例如 ，os.path.spLit 和 os.path.join 让 你 在 大 多 数 情 况 下 都 可 
忽略 os.pathsep )。 有 关 这 个 模块 的 详细 信息 ， 请 参阅 标准 库 文 档 。 在 标准 库 文档 中 ， 还 可 找到 
有 关 模 块 pathlib 的 描述 ， 它 提供 了 一 个 面向 对 象 的 路 径 操作 接口 。 


表 10-3 ”模块 os 中 一 些 重要 的 函数 和 变量 














函数 /变量 描述 
environ 包含 环境 变量 的 映射 
system(command) 在 子 shell 中 执行 操作 系统 命令 
sep 路 径 中 使 用 的 分 隔 符 
pathsep 分 隔 不 同 路 径 的 分 隔 符 
linesep 行 分 隔 符 ('\n'、'\r' 或 '\r\n' ) 
urandom(n) 返回 n 个 字 节 的 强加 密 随机 数据 
映射 os.environ 包 含 本 章 前 面 介 绍 的 环境 变量 。 例 如 ， 要 访问 环境 变量 PYTHONPATH， 可 使 用 表达 


式 os.environ[' PYTHONPATH']。 这 个 映射 也 可 用 于 修改 环境 变量 ， 但 并 非 所 有 的 平台 都 支持 这 样 做 。 
函数 os.system 用 于 运行 外 部 程序 。 还 有 其 他 用 于 执行 外 部 程序 的 函数 ,如 execv 和 popen。 前 
者 退出 Python 解释 器 ， 并 将 控制 权 交 给 被 执行 的 程序 ， 而 后 者 创建 一 个 到 程序 的 连接 ( 这 个 连接 
类 似 于 文件 )。 
有 关 这 些 函 数 的 详细 信息 ， 请 参阅 标准 库 文档 。 

















提示 “请 参阅 模块 subprocess， 它 融合 了 模块 06.System 以 及 函数 execv 和 popen 的 功能 。 


变量 os.sep 是 用 于 路 径 名 中 的 分 隔 符 。 在 UNIX ( 以 及 macOS 的 命令 行 Python 版 本 ) 中 , 标准 
分 隔 符 为 /。 在 Windows 中 ， 标 准 分 隔 符 为 \\〔 这 种 Python 语 法 表示 单个 反 斜 杠 )。 在 旧式 macOS 
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中 ， 标 准 分 隔 符 为 :。( 在 有 些 平 台中 ，os.altsep 包 含 蔡 代 路 径 分 隔 符 ， 如 Windows 中 的 /。) 

可 使 用 os.pathsep 来 组 合 多 条 路 径 , 就 像 PYTHONPATH 中 那样 。pathsep 用 于 分 隔 不 同 的 路 径 名 : 
在 UNIX/macOS 中 为 :， 而 在 Windows 中 为 ;。 

变量 os.1inesep 是 用 于 文本 文件 中 的 行 分 隔 符 : 在 UNIX/OS X 中 为 单个 换行 符 〈(\n ),， 在 
Windows 中 为 回 车 和 换行 符 ( \r\n )。 

函数 urandom 使 用 随 系统 而 异 的 “真正 ”( 至 少 是 强加 密 ) 随机 源 。 如 果 平 台 没 有 提供 这 样 的 
随机 源 ， 将 引发 NotImplementedError 异 常 。 

例如 , 看 看 启动 Web 浏 览 器 的 问题 ,命令 system 可 用 于 执行 任何 外 部 程序 , 这 在 UNIX 等 环境 
中 很 有 用 ， 因 为 你 可 从 命令 行 执行 程序 ( 或 命令 ) 来 列 出 目录 的 内 容 、 发 送 电 子 邮件 等 。 它 还 可 
用 于 启动 图 形 用 户 界面 程序 , 如 Web 浏 览 器 ,在 UNIX 中 ,可 像 下 面 这 样 做 ( 这 里 假定 /usr/bin/firefox 
处 有 浏览 器 ): 

os.system('/usr/bin/firefox') 

在 Windows 中 ， 可 以 这 样 做 ( 同样 ， 这 里 指定 的 是 你 安装 浏览 器 的 路 径 ): 

os.system(r'C:\"Program Files (x86)"\"Mozilla Firefox"\firefox.exe') 

请 注意 ， 这 里 用 引号 将 Program Files 和 Mozilla Firefox 括 起 来 了 。 如 果 不 这 样 做 ， 底 层 shell 
将 受阻 于 空白 处 (对 于 PYTHONPATH 中 的 路 径 ， 也 必须 这 样 做 )。 另 外 ， 这 里 必须 使 用 反 斜 杆 ， 
为 Windows shell 无 法 识别 和 斜 枉 。 如 果 你 执行 这 个 命令 ， 将 发 现 浏览 器 试图 打开 名 为 
Files"\Mozilla..( 空白 后 面 的 命令 部 分 ) 的 网 站 。 另 外 ， 如 果 你 在 IDLE 中 执行 这 个 命令 ， 将 出 
现 一 个 DOS 和 窗口， 关闭 这 个 窗口 后 浏览 锅 才 会 启动 。 总 之 ， 结 果 不 太 理想 。 

另 一 个 函数 更 适合 用 于 完成 这 项 任务 ， 它 就 是 Windows 特 有 的 函数 os.startfile。 

os.startfile(r'C:\Program Files (x86)\Mozilla Firefox\firefox.exe') 

如 你 所 见 ,os.startfile 接 受 一 个 普通 路 径 , 即便 该 路 径 包 含 空白 也 没关系 ( 无 需 像 0s .system 
示例 中 那样 用 引号 将 Program Files 括 起 )。 

请 注意 ， 在 Windows 中 ， 使 用 os.system 或 os.startfile 启 动 外 部 程序 后 ， 当 前 Python 程序 将 
继续 运行 ;而 在 UNIX 中 ， 当 前 Python 程序 将 等 待命 令 os .system 结 束 。 


更 佳 的 解决 方案 : webbrowser 


函数 os.system 可 用 于 完成 很 多 任务 ， 但 就 启动 Web 浏 览 器 这 项 任务 而 言 ， 有 一 种 更 佳 的 
解决 方案 : 使 用 模块 webbrowser。 这 个 模块 包含 一 个 名 为 open 的 函数 ， 让 你 能 够 启动 启动 Web 
浏览 器 并 打开 指定 的 URL。 例 如 ， 要 让 程序 在 Web 浏 览 器 中 打开 Python 网 站 ( 启动 浏览 器 或 使 
用 正在 运行 的 浏览 器 ， 只 需 像 下 面 这 样 做 : 


import webbrowser 
webbrowser.open('http://www.python.org') 


这 将 弹出 指定 的 网 页 。 
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10.3.3 fileinput 
第 11 章 将 深入 介绍 如 何 读 写 文件 ， 这 里 先 来 预演 一 下 。 模 块 fileinput 让 你 能 够 轻松 地 迭代 
一 系列 文本 文件 中 的 所 有 行 。 如 果 你 这 样 调用 脚本 假设 是 在 UNIX 命 令 行 中 ): 

$ python some script.py file1.txt file2.txt file3.txt 

就 能 够 依次 迭代 文件 filel.txt 到 名 e3 ,txt 中 的 行 。 你 还 可 在 UNIX 管 道中 对 使 用 UNIX 标 准 命令 
cat 提 供给 标准 输入 ( sys.stdin ) 的 行进 行 迭代 。 

$ cat file.txt | python some script.py 

如 果 使 用 模块 fileinput ， 在 UNIX 管 道中 使 用 cat 调 用 脚本 的 效果 将 与 以 命令 行 参数 的 方式 
向 脚本 提供 文件 名 一 样 。 表 10-4 描 述 了 模块 fileinput 中 最 重要 的 函数 。 

表 10-4 ”模块 fileinput 中 一 些 重要 的 函数 




































































函 数 描 述 
input([files[, inplace[, backup]]]) 帮助 迭代 多 个 输入 流 中 的 行 
filename() 返回 当前 文件 的 名 称 
lineno() 返回 (累计 的 ) 当前 行 号 
filelineno() 返回 在 当前 文件 中 的 行 号 
isfirstline() 检查 当前 行 是 否 是 文件 中 的 第 一 行 
isstdin() 检查 最 后 一 行 是 否 来 自 sys.stdin 
nextfile() 关闭 当前 文件 并 移 到 下 一 个 文件 
close() 关闭 序列 








们 leinput.input 是 其 中 最 重要 的 函数 ， 它 返回 一 个 可 在 for 循 环 中 进行 迭代 的 对 象 。 如 果 要 
盖 默 认 行 为 〈 确定 要 迭代 哪些 文件 )， 可 以 序列 的 方式 向 这 个 函数 提供 一 个 或 多 个 文件 名 。 还 

可 将 参数 inplace 设 置 为 True ( inplace=True )， 这 样 将 就 地 进行 处 理 。 对 于 你 访问 的 每 一 行 ， 都 
需 打 印 出 替代 内 容 ， 这些 内 容 将 被 写 回 到 当前 输入 文件 中 。 就 地 进行 处 理 时 ， 可 选 参 数 packup 用 
于 给 从 原始 文件 创建 的 备份 文件 指定 扩展 名 。 

函数 fileinput.filename 返 回 当前 文件 〈《 即 当前 处 理 的 行 所 属 文件 ) 的 文件 名 。 

函数 fileinput.lineno 返 回 当前 行 的 编号 。 这 个 值 是 累计 的 ， 因 此 处 理 完 一 个 文件 并 接着 处 
理 下 一 个 文件 时 ， 不 会 重 置 行 号 ， 而 是 从 前 一 个 文件 最 后 一 行 的 行 号 加 1 开始 。 

函数 fileinput.filelineno 返 回 当前 行 在 当前 文件 中 的 行 号 。 每 次 处 理 完 一 个 文件 并 接着 处 
里 下 一 个 文件 时 ， 将 重 置 这 个 行 号 并 从 1 重新 开始 。 

因数 fileinput.isfirstline 在 当前 行为 当前 文件 中 的 第 一 行 时 返回 True， 否 则 返回 False。 

函数 fileinput.isstdin 在 当前 文件 为 sys.stdin 时 返回 True， 否 则 返回 False。 

函数 fileinput.nextfile 关 闭 当 前 文件 并 跳 到 下 一 个 文件 ， 且 计数 时 忽略 跳 过 的 行 。 这 在 你 
知道 无 需 继 续 处 理 当 前 文件 时 很 有 用 。 例 如 ， 如 果 每 个 文件 包含 的 单词 都 是 按 顺 序 排列 的 ， 而 你 
要 查找 特定 的 单词 ， 则 过 了 这 个 单词 所 在 的 位 置 后 ， 就 可 放心 地 跳 到 下 一 个 文件 。 

函数 fileinput.close 关 闭 整 个 文件 链 并 结束 迭代 。 
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来 看 一 个 fileinput 使 用 示例 。 假 设 你 编写 了 一 个 Python 脚本 ,并 想 给 其 中 的 代码 行 加 上 行 号 。 
鉴于 你 希望 这 样 处 理 后 程序 依然 能 够 正常 运行 , 因此 必须 在 每 行 末 尾 以 注释 的 方式 添加 行 号 。 为 
让 这 些 行 号 对 齐 , 可 使 用 字符 串 格式 设置 功能 。 假设 只 允许 每 行 代码 最 多 包含 40 个 字符 ,并 在 第 
41 个 字符 处 开始 添加 注释 。 代 码 清 单 10-6 演 示 了 一 种 使 用 模块 fijleinput 和 参数 inplace 来 完成 这 
种 任务 的 简单 方式 。 


代码 清单 10-6 ”在 Python 肢 本 中 添加 行 号 


# numberlines.py 












































import fileinput 


for line in fileinput.input(inplace=True): 
line = line.rstrip() 
num = fileinput.1lineno() 
print('{:<50} # {:2d}' .format(line, num)) 


如 果 像 下 面 这 样 运行 这 个 程序 ， 并 将 其 作为 参数 传人 : 

$ python numberlines.py numberlines.py 

这 个 程序 将 变 成 代码 清单 10-7 那 样 。 注 意 到 程序 本 身 被 修改 了 , 如 果 像 上 面 这 样 运行 它 多 次 ， 
每 行 都 将 包含 多 个 行 号 。 本 书 前面 介 绍 过 ，rstrip 是 一 个 字符 串 方 法 ， 它 将 删除 指定 字符 串 两 端 
的 空白 ， 并 返回 结果 (参见 3.4 节 以 及 附录 B 的 表 B-6 )。 
代码 清单 10-7 添加 行 号 后 的 行 号 添加 程序 





# numberlines.py #1 
#2 

import fileinput # 3 
#4 

for line in fileinput.input(inplace=True): #5 
line = line.rstrip() #6 

num = fileinput.1lineno() #7 
print('{:<50} # {:2d}' .format(line, num)) #8 


警告 务必 慎 用 参数 inplace， 因 为 这 很 容易 破坏 文件 。 你 应 在 不 设置 inplace 的 情况 下 仔细 测试 
程序 (这 样 将 只 打印 结果 )， 确 保 程序 能 够 正确 运行 后 再 让 它 修 改 文件 。 


在 10.3.6 节 ， 提 供 了 另 一 个 fileinput 使 用 示例 。 


10.3.4 集合 、 堆 和 双 端 队列 


有 用 的 数据 结构 有 很 多 。Python 支 持 一 些 较 常用 的 ， 其 中 的 字典 ( 散 列 表 ) 和 列表 ( 动态 数 
组 ) 是 Python 语言 的 有 机 组 成 部 分 。 还 有 一 些 虽然 不 那么 重要 ， 但 有 时 也 能 派 上 用 场 。 

1. 集合 

很 久 以 前 ， 集 合 是 由 模块 sets 中 的 Set 类 实现 的 。 虽 然 在 既 有 代码 中 可 能 遇 到 Set 实 例 ， 但 除 
非 要 向 后 兼容 ， 和 否则 真 的 没有 理由 再 使 用 它 。 在 较 新 的 版 本 中 ， 集 合 是 由 内 置 类 set 实 现 的 ， 这 

















10.3 ”标准 库 : 一 些 深 受 欢 迎 的 模块 187 











意味 着 你 可 直接 创建 集合 ， 而 无 需 导入 模块 sets。 


>>> set(range(10)) 
{0, 1， 2， 3， 4， 5， 6， 7， 8， 9} 


可 使 用 序列 〈 或 其 他 可 迭代 对 象 ) 来 创建 集合 ， 也 可 使 用 花 括 号 显 式 地 指定 。 请 注意 , 不 能 
仅 使 用 花 括 号 来 创建 空 集合 ， 因 为 这 将 创建 一 个 空 字典 。 


>>> type({}) 
<class 'dict'> 


相反 ， 必 须 在 不 提供 任何 参数 的 情况 下 调用 set。 集 合 主要 用 于 成 员 资格 检查 ， 因 此 将 忽略 
重复 的 元 素 : 


>>> {0, 1, 2, 3, 0, 1, 2, 3, 4, 5} 
{0, 1, 2, 3, 4, 5} 


与 字典 一 样 ， 集 合 中 元 素 的 排列 顺序 是 不 确定 的 ， 因 此 不 能 依赖 于 这 一 点 。 

>>> {'fee', 'fie', 'foe'} 

{'foe', 'fee', 'fie'} 

除 成 员 资格 检查 外 ,还 可 执行 各 种 标准 集合 操作 ( 你 可 能 在 数学 课 上 学 过 )， 如 并 集 和 交集 ， 
为 此 可 使 用 对 整数 执行 按 位 操作 的 运算 符 ( 参见 附录 B )。 例如 ,要 计算 两 个 集合 的 并 集 , 可 对 其 
中 一 个 集合 调用 方法 union， 也 可 使 用 按 位 或 运算 符 | 。 





















































项 





>>> a = {1,，2, 3} 
>>> b = {2, 3, 4} 
>>> a.union(b) 
但 国人 

>>> a | b 

{15:27 3 0 


还 有 其 他 一 些 方法 和 对 应 的 运算 符 ， 这些 方 法 的 名 称 清楚 地 指出 了 其 功能 : 


>>>c=a&b 

>>> c.issubset(a) 
True 

>>> C<= a 

True 

>>> c.issuperset(a) 
False 

>>> c >= a 

False 

>>> a.intersection(b) 


>>> a.difference(b) 

{1} 

>>> a - b 

{1} 

>>> a.symmetric difference(b) 
{1, 4} 


{1, 4} 
>>> a.copy() 
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{1, 2,3} 
>>> a.copy() is a 
False 


另外 ， 还 有 对 应 于 各 种 就 地 操作 的 方法 以 及 基本 方法 add 和 remove。 有 关 这 些 方法 的 详细 信 
息 ， 请 参阅 “Python 库 参 考 手 册 ” 中 讨论 集合 类 型 的 部 分 。 


提示 “需要 计算 两 个 集合 的 并 集 的 函数 时 ， 可 使 用 set 中 方法 union 的 未 关联 版 本 。 这 可 能 很 有 
用 ， 如 与 feduce 一 起 使 用 。 


>>> my_sets = [] 
>>> for i in range(10) : 
my_sets.append(set(range(i, i+5))) 


>>> reduce(set.union, my_sets) 
C0 ds De 3 A 06 750, 0 LO 3 





























集合 是 可 变 的 ， 因 此 不 能 用 作 字 典 中 的 键 。 另 一 个 问题 是 ， 集 合 只 能 包含 不 可 变 ( 可 散 列 ) 
的 值 , 因此 不 能 包含 其 他 集合 。 由 于 在 现实 世界 中 经 常会 遇 到 集合 的 集合 , 因此 这 可 能 是 个 问题 。 
所 幸 还 有 frozenset 类 型 ， 它 表示 不 可 变 ( 可 散 列 ) 的 集合 。 


>>> a = set() 

>>> b = set() 

>>> a.add(b) 

Traceback (most recent call last): 
File "<stdin>", line 1, in ? 

TypeError: set objects are unhashable 

>>> a.add(frozenset(b)) 


构造 函数 frozenset 创 建 给 定 集合 的 副本 。 在 需要 将 集合 作为 另 一 个 集合 的 成 员 或 字典 中 的 
键 时 ，frozenset 很 有 用 。 

2. 堆 

另 一 种 著名 的 数据 结构 是 堆 (heap )， 它 是 一 种 优先 队列 。 优 先 队 列 让 你 能 够 以 任意 顺序 添 
加 对 象 , 并 随时 ( 可 能 是 在 两 次 添加 对 象 之 间 ) 找 出 (并 删除 ) 最 小 的 元 素 。 相 比 于 列表 方法 min， 
这 样 做 的 效率 要 高 得 多 。 

实际 上 ，Python 没 有 独立 的 推 类 型 ， 而 只 有 一 个 包含 一 些 堆 操 作 函 数 的 模块 。 这 个 模块 名 为 
heapq (其 中 的 q 表 示 队 列 )， 它 包含 6 个 函数 (如 表 10-$ 所 示 )， 其 中 前 4 个 与 堆 操作 直接 相关 。 必 
须 使 用 列表 来 表示 堆 对 象 本 身 。 

表 10-5 ”模块 heapq 中 一 些 重 要 的 函数 





























































































































函 数 描述 
heappush(heap, x) 将 x 压 入 堆 中 
heappop (heap) 从 堆 中 弹出 最 小 的 元 素 
heapify(heap) 让 列表 具备 堆 特 征 
heapreplace(heap, x) 弹出 最 小 的 元 素 ， 并 将 x 压 入 堆 中 
nlargest(n, iter) 返回 iter 中 n 个 最 大 的 元 素 
nsmallest(n, iter) 返回 iter 中 n 个 最 小 的 元 素 
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函数 heappush 用 于 在 堆 中 添加 一 个 元 素 。 请 注意 ,不 能 将 它 用 于 普通 列表 ， 而 只 能 用 于 使 用 
各 种 堆 函 数 创 建 的 列表 。 原 因 是 元 素 的 顺序 很 重要 ( 虽然 元 素 的 排列 顺序 看 起 来 有 点 随意 ,并 没 
有 严格 地 排序 )。 


>>> from heapq import * 

>>> from random import shuffle 
>>> data = list(range(10)) 

>>> shuffle(data) 

>>> heap = [] 

>>> for n in data: 














heappush(heap, n) 


>>> heap 

[0， 1， 3， 6 2， 8， 4， 7， 9， 5] 

>>> heappush(heap, 0.5) 

>>> heap 

[0, 0.5, 3, 6, 1, 8, 4, 7, 9, 5, 2] 


元 素 的 排列 顺序 并 不 像 看 起 来 那么 随意 。 它 们 虽然 不 是 严格 排序 的 , 但 必须 保证 一 点 : 位 置 











i 处 的 元 素 总 是 大 于 位 置 i // ?处 的 元 素 〈 反 过 来 说 就 是 小 于 位 置 ? * i 和 2 * i + 1 处 的 元 素 )。 


这 是 底层 推算 法 的 基础 ， 称 为 堆 特征 (heap property )。 
函数 heappop 弹 出 最 小 的 元 素 ( 总 是 位 于 索引 0 处 )， 并 确保 剩余 元 素 中 最 小 的 那个 位 于 索引 0 
































处 (保持 





特征 )。 虽然 弹出 列表 中 第 一 个 元 素 的 效率 通常 不 是 很 高 , 但 这 不 是 问题 , 因为 heappop 











会 在 幕后 做 些 巧 妙 的 移 位 操作 。 
>>> heappop(heap) 
0 


>>> heappop (heap) 


0.5 


>>> heappop (heap) 
1 


>>> heap 
[2， 5， 3， 6， 9， 8， 4， 7] 


函数 heapify 通 过 执行 尽 可 能 少 的 移 位 操作 将 列表 变 成 合法 的 堆 ( 即 具备 堆 特 征 )。 如 果 你 的 
堆 并 不 是 使 用 heappush 创 建 的 ， 应 在 使 用 heappush 和 heappop 之 前 使 用 这 个 函数 。 


>>> heap = [5, 8, 0, 3, 6, 7, 9, 1, 4, 2] 
>>> heapify(heap) 

>>> heap 

[05 3 23 7, 9F.834; 6] 


函数 heapreplace 用 得 没有 其 他 函数 那么 多 。 它 从 堆 中 弹出 最 小 的 元 素 ， 再 压 人 一 个 新 元 素 。 
相 比 于 依次 执行 函数 heappop 和 heappush， 这 个 函数 的 效率 更 高 。 


>>> heapreplace(heap, 0.5) 
0 

















>>> heap 


[0.5， 


13 5， 3， 2， 7 9， 8， 4， 6] 


>>> heapreplace(heap, 10) 


0.5 


>>> heap 


[1 


5, 3, 6, 7, 9, 8, 4, 10] 
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sorted ) 


至 此 ， 模 块 heapq 中 还 有 两 个 函数 没有 介绍 : nlargest(n，iter) 和 nsmallest(n，iter)， :分 
别 用 于 找 出 可 迭代 对 象 iter 中 最 大 和 最 小 的 n 个 元 素 。 这 种 任务 也 可 通过 先 排 序 ( 如 使 用 函数 

















再 切片 来 完成 ， 但 堆 算 法 的 速度 更 快 ， 使 用 的 内 存 更 少 








3. 双 端 队列 (及 其 他 集合 ) 


在 需要 按 添加 元 素 的 顺序 进行 删除 B 











deque 以 及 其 他 几 个 集合 〈collection ) 类 型 。 
与 集合 〈set ) 一 样 ， 双 端 队列 也 是 从 可 迭代 对 象 创建 的 ， 它 包含 多 个 很 有 用 的 方法 。 
>>> from collections import deque 
>>> q = deque(range(5)) 

>>> q.append(5) 

>>> q.appendleft(6) 


>>> q 





deque([6, 0, 1, 2, 3, 4, 5]) 
>>> q.pop() 


5 


>>> q.popleft() 


6 


>>> q.rotate(3) 


>>> 9q 





deque( 2, 3, 4, 0， 1]) 
>>> q.rotate(-1) 


>>> q 





deque([3, 4, 0, 1, 2]) 
双 端 队列 很 有 用 , 因为 它 支持 在 队 首 ( 左 端 ) 高 效 地 附加 和 弹出 元 素 , 而 使 用 列表 无 法 这 样 做 。 
另外 ， 还 可 高 效 地 旋转 元 素 〈 将 元 素 向 右 或 向 左 移 ， 并 在 到 达 一 端 时 环绕 到 另 一 端 )。 双 端 队 列 对 
象 还 包含 方法 extend 和 extendleft ， 其 中 extend 类 似 于 相应 的 列表 方法 ， 而 extendleft 类 似 于 
appendleft。 请 注意 ， 用 于 extendleft 的 可 迭代 对 象 中 的 元 素 将 按 相 反 的 顺序 出 现在 双 端 队列 中 。 


10.3.5 time 
模块 time 包 含 用 于 获取 当前 时 间 、 操 作 时 间 和 日 期 、 从 字符 串 中 读 取 日 期 、 将 日 期 格式 化 为 


性 > Ah dD 


字符 中 














(而 





寸 ， 双 端 队列 很 有 用 。 在 模块 collections 中 ， 包 含 类 3 


且 使 用 起 来 也 更 容易 )。 








宇 
一 


上 
































的 函数 。 日 期 可 表示 为 实数 ( 从 “新 纪元 ”1 月 1 日 0 时 起 过 去 的 秒 数 。 “新 纪元 ”是 一 个 随 


平台 而 异 的 年 份 ， 在 UNIX 中 为 1970 年 )， 也 可 表示 为 包含 9 个 整数 的 元 组 。 表 10-6 解 释 了 这 些 整 
数 。 例 如 ， 元 组 (2008，1，21，12，2，56，0，21，0) 表 示 2008 年 1 


3 





生 











明 一 ， 


2008 年 的 第 21 天 (不 考虑 夏令 时 )。 


表 10-6 Python 日 期 元 组 中 的 字段 








月 21 日 12 时 2 分 56 秒 。 这 一 天 是 
































索 引 字 上段 值 
0 年 如 2000、2001 等 
1 月 范围 1~12 
2 范围 1~31 
3 时 范围 0~23 
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( 续 ) 
索 引 字 上段 值 
, 分 范围 0~59 
> 秒 范围 0-61 
， 星期 范围 0-6， 其 中 0 表示 星期 一 
侍 略 日 范围 1-366 
夏令 时 0、1 或 -1 
秒 的 取 值 范围 为 0~61, 这 考虑 到 了 图 一 秒 和 图 两 秒 的 情况 。 夏令 时 数字 是 一 个 布尔 值 (True 

















或 False )， 但 如 果 你 使 用 -1， 那 么 mktime [ 将 时 间 元 组 转换 为 时 间 戳 〈《 从 新 纪元 开始 后 的 秒 数 ) 
的 函数 ] 可 能 得 到 正确 的 值 。 表 10-7 描 述 了 模块 time 中 一 些 最 重要 的 函数 。 





表 10-7 ”模块 time 中 一 些 重要 的 函数 





























函数 描述 

asctime( [tuple]) 将 时 间 元 组 转换 为 字符 串 

localtime([secs]) 将 秒 数 转换 为 表示 当地 时 间 的 日 期 元 组 
mktime(tuple) 将 时 间 元 组 转换 为 当地 时 间 

sleep(secs) 休眠 (什么 都 不 做 ) secs 秒 

strptime(string[, format]) 将 字符 串 转 换 为 时 间 元 组 

time() 当前 时 间 ( 从 新 纪元 开始 后 的 秒 数 ， 以 UTC 为 准 ) 














函数 time.asctime 将 当前 时 间 转 换 为 字符 串 ， 如 下 所 示 : 
>>> time.asctime() 
"Mon Ju 18 14:06:07 2016 


如 果 不 想 使 用 当前 时 间 ， 也 可 向 它 提 供 一 个 日 期 元 组 (如 localtime 创 建 的 日 期 元 组 )。 要 设 
置 更 复杂 的 格式 ， 可 使 用 函数 strftime， 标 准 文档 对 此 做 了 介绍 。 

函数 time.localtime 将 一 个 实数 ( 从 新 纪元 开始 后 的 秒 数 ) 转换 为 日 期 元 组 ( 本 地 时 间 )。 如 
果 要 转换 为 国际 标准 时 间 ， 应 使 用 gmtime。 

函数 time.mktime 将 日 期 元 组 转换 为 从 新 纪元 后 的 秒 数 ， 这 与 localtime 的 功能 相反 。 

函数 time.sleep 让 解释 器 等 待 指定 的 秒 数 。 

函数 time.strptime 将 一 个 字符 串 〈 其 格式 与 asctime 所 返回 字符 串 的 格式 相同 ) 转换 为 日 期 
元 组 。( 可 选 参数 format 遵 循 的 规则 与 strftime 相 同 ， 详 情 请 参阅 标准 文档 。) 

函数 time.time 返 回 当前 的 国际 标准 时 间 ， 以 从 新 纪元 开始 的 秒 数 表 示 。 虽 然 新 纪元 随 平台 
而 异 ， 但 可 这 样 进行 可 靠 的 计时 : 存储 事件 (如 函数 调用 ) 发 生前 后 time 的 结果 ， 再 计算 它们 的 
差 。 有 关 这 些 函 数 的 使 用 示例 ， 请 参阅 10.3.6 节 。 

表 10-7 只 列 出 了 模块 time 的 一 部 分 函数 。 这 个 模块 的 大 部 分 函数 执行 的 任务 都 与 本 节 介 绍 的 
任务 类 似 或 相关 。 如 果 要 完成 这 里 介绍 的 函数 无 法 执行 的 任务 ， 请 查看 “Python 库 参 考 手 册 ” 中 
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介绍 模块 time 的 部 分 ， 在 那里 你 很 可 能 找到 刚好 能 完成 这 种 任务 的 函数 。 

另外 ， 还 有 两 个 较 新 的 与 时 间 相 关 的 模块 : datetime 和 timeit。 前 者 提供 了 日 期 和 时 间 算 术 
支持 ， 而 后 者 可 帮助 你 计算 代码 段 的 执行 时 间 。“Python 库 参考 手册 ”提供 了 有 关 这 两 个 模块 的 
详细 信息 。 另 外 ， 第 16 章 将 简要 地 讨论 timeit。 








10.3.6 random 


模块 random 包 含 生成 伪 随 机 数 的 函数 , 有 助 于 编写 模拟 程序 或 生成 随机 输出 的 程序 。 请 注意 ， 
虽然 这 些 函数 生成 的 数字 好 像 是 完全 随机 的 , 但 它们 背后 的 系统 是 可 预测 的 。 如 果 你 要 求 真 正 的 
随机 ( 如 用 于 加 密 或 实现 与 安全 相关 的 功能 )， 应 考虑 使 用 模块 os 中 的 函数 urandom。 模 块 Tzandom 
中 的 SystemRandom 类 基于 的 功能 与 urandom 类 似 ， 可 提供 接近 于 真正 随机 的 数据 。 


表 10-8 列 出 了 这 个 模块 中 一 些 重要 的 函数 。 
表 10-8 ”模块 random 中 一 些 重要 的 函数 













































































函 数 描 述 
random() 返回 一 个 0~1 ( 含 ) 的 随机 实数 
getrandbits(n) 以 长 整数 方式 返回 n 个 随机 的 二 进 制 位 
uniform(a, b) 返回 一 个 a~b〈 含 ) 的 随机 实数 
randrange([start], stop, [step]) 从 range(start，stop，step) 中 随机 地 选择 一 个 数 
choice(seq) 从 序列 seq 中 随机 地 选择 一 个 元 素 
shuffle(seq[, random]) 就 地 打 乱 序列 seq 
sample(seq, n) 从 序列 seq 中 随机 地 选择 n 个 值 不 同 的 元 素 











孙 数 random.random 是 最 基本 的 随机 隐 数 之 一 ， 它 返回 一 个 0~1 ( 含 ) 的 伪 随 机 数 。 除 非 这 正 
是 你 需要 的 ， 否 则 可 能 应 使 用 其 他 提供 了 额外 功能 的 函数 。 函 数 random.getrandbits 以 一 个 整数 
的 方式 返回 指定 数量 的 二 进 制 位 。 

向 函数 random.uniform 提 供 了 两 个 数字 参数 a 和 b 时 , 它 返 回 一 个 a~b ( 含 ) 的 随机 (均匀 分 布 
的 ) 实数 。 例 如 ， 如 果 你 需要 一 个 随机 角度 ， 可 使 用 uniform(0，360)。 

隐 数 random.randrange 是 生成 随机 整数 的 标准 函数 。 为 指定 这 个 随机 整数 所 在 的 范围 ， 
你 可 像 调 用 range 那 样 给 这 个 函数 提供 参数 。 例 如 ， 要 生成 一 个 1~10 ( 含 ) 的 随机 整数 ， 可 
使 用 randrange(1, 11) 或 randrange(10) + 1。 要 生成 一 个 小 于 20 的 随机 正 奇数 ， 可 使 用 randrange(1， 
20) 2)8 

函数 random.choice 从 给 定 序列 中 随机 (均匀 ) 地 选择 一 个 元 素 。 
函数 random.shuffle 随 机 地 打 乱 一 个 可 变 序列 中 的 元 素 ， 并 确保 每 种 可 能 的 排列 顺序 出 现 的 
概率 相同 。 
函数 random.sample 从 给 定 序列 中 随机 (均匀 ) 地 选择 指定 数量 的 元 素 ， 并 确保 所 选择 元 素 
的 值 各 不 相同 。 
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注意 编写 与 统计 相关 的 程序 时 ， 可 使 用 其 他 类 似 于 uniform 的 函数 ， 它 们 返回 按 各 种 分 布 随机 
采集 的 数字 ， 如 贝塔 分 布 、 指 数 分 布 、 高 斯 分 布 等 。 





来 看 几 个 使 用 模块 random 的 示例 。 在 这 些 示 例 中 ,我 将 使 用 前 面 介绍 的 模块 time 中 的 几 个 函 
数 。 首先 , 获取 表示 时 间 段 (2016 年 ) 上 限 和 下 限 的 实数 。 为 此 , 可 使 用 时 间 元 组 来 表示 日 期 (将 
星期 、 儒 略 日 和 夏令 时 都 设置 为 -1， 让 Python 去 计算 它们 的 正确 值 )， 并 对 这 些 元 组 调用 mktime: 
from random import * 
from time import * 
date1 = (2016, 1, 1, 0, 0, 0, -1, -1, -1) 
time1 = mktime(date1) 
date2 = (2017, 1, 1, 0, 0, 0, -1, -1, -1) 
time2 = mktime(date2) 

接 下 来 ， 以 均匀 的 方式 生成 一 个 位 于 该 范围 内 (不 包括 上 限 ) 的 随机 数 : 


>>> random time = uniform(time1, time2) 


然后 ， 将 这 个 数 转 换 为 易于 理解 的 日 期 。 


>>> print(asctime(localtime(random time))) 
Tue Aug 16 10:11:04 2016 


在 接 下 来 的 示例 中 , 我 们 询问 用 户 要 掷 多 少 个 仍 子 、 每 个 奶 子 有 多 少 面 。 掷 山子 的 机 制 是 使 
用 randrange 和 for 循 环 实现 的 。 

from random import randrange 

num = int(input('How many dice? ')) 

sides = int(input('How many sides per die? ')) 

sum = 0 

for i in range(num): sum += randrange(sides) + 1 

print('The result is', sum) 


如 果 将 这 些 代码 放 在 一 个 脚本 文件 中 并 运行 它 ， 将 看 到 类 似 于 下 面 的 交互 过 程 : 


How many dice? 3 
How many sides per die? 6 
The result is 10 


现在 假设 你 创建 了 一 个 文本 文件 ， 其 中 每 行 都 包含 一 种 运气 情况 ( fortune )， 那 么 就 可 使 用 
前 面 介绍 的 模块 fileinput 将 这 些 情况 放 到 一 个 列表 中 ， 青 随机 地 选择 一 种 。 

# fortune.py 

import fileinput, random 


fortunes = list(fileinput.input()) 
print random.choice(fortunes) 


在 UNIX 和 macOS 中 ,可 使 用 标准 字典 文 件 /usr/share/dict/words 来 测试 这 个 程序 ， 这 将 获得 一 
个 随机 的 单词 。 


$ python fortune.py /usr/share/dict/words 
dodge 
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来 看 最 后 一 个 示例 。 假设 你 要 编写 一 个 程序 , 在 用 户 每 次 按 回 车 键 时 都 发 给 他 一 张 牌 。 另 外 ， 
你 还 要 确保 发 给 用 户 的 每 张 牌 都 不 同 。 为 此 ， 首 先 创建 “一 副 牌 "， 也 就 是 一 个 字符 串 列 表 。 


>>> values = list(range(1, 11)) + “Jack Queen King' .split() 
>>> suits = 'diamonds clubs hearts spades' .split() 
>>> deck = [ { of {}'.format(v, s) for v in values for s in suits] 


刚才 创建 的 这 副 牌 并 不 太 适 合 玩 游戏 。 我 们 来 看 看 其 中 一 些 牌 : 
>>> from pprint import pprint 

>>> pprint(deck[:12]) 
['1 of diamonds '， 























[i 
CT 
上 十 十 才 十 十 十 十 十 十 二 


太 有 规律 了 ， 对 吧 ? 这 个 问题 很 容易 修复 。 


>>> from random import shuffle 
>>> shuffle(deck) 
>>> pprint(deck[:12]) 
['3 of spades', 

'2 of diamonds', 

'5 of diamonds', 
of spades', 
of diamonds ， 
of clubs', 
'5 of hearts ， 
'Queen of diamonds ， 
'Queen of hearts ， 
King of hearts ， 
' Jack of diamonds ' ， 
'Queen of clubs'] 


请 注意 , 这 里 只 打印 了 开头 12 张 牌 , 旨 在 节省 篇 幅 。 如 果 你 愿意 , 完全 可 以 自己 查看 整 副 牌 。 

最 后 ， 要 让 Python 在 用 户 每 次 按 回 车 键 时 都 给 他 发 一 张 牌 ， 直 到 牌 发 完 为 止 ， 只 需 创 建 一 个 
简单 的 while 循 环 。 如 果 将 创建 整 副 牌 的 代码 放 在 了 一 个 程序 文件 中 ,那么 只 需 在 这 个 文件 末尾 
添加 如 下 代码 即 可 : 

while deck: input(deck.pop()) 

请 注意 ， 如 果 在 交互 式 解释 器 中 尝试 运行 这 个 while 循 环 ， 那 么 每 当 你 按 回 车 键 时 都 将 打印 
一 个 空 字符 串 。 这 是 因为 input 返 回 你 输入 的 内 容 ( 什么 都 没有 )， 然 后 这 些 内 容 将 被 打印 出 来 。 
在 普通 程序 中 ， 将 忽略 input 返 回 的 值 。 要 在 交互 式 解 释 器 中 也 忽略 input 返 回 的 值 ， 只 需 将 其 赋 


给 一 个 你 不 会 再 理会 的 变量 ， 并 将 这 个 变量 命名 为 ignore。 


5 
'6 
'8 

1 
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10.3.7 shelve 和 json 


下 一 章 将 介绍 如 何 将 数据 存储 到 文件 中 , 但 如 果 需 要 的 是 简单 的 存储 方案 , 模块 shelve 可 替 
你 完成 大 部 分 工作 一 一 你 只 需 提 供 一 个 文件 名 即 可 。 对 于 模块 shelve， 你 唯一 感 兴趣 的 是 函数 
open。 这 个 函数 将 一 个 文件 名 作为 参数 ， 并 返回 一 个 Shelf 对 象 ， 供 你 用 来 存储 数据 。 你 可 像 操 
作 普 通 字典 那样 操作 它 〈 只 是 键 必须 为 字符 串 )， 操 作 完 毕 ( 并 将 所 做 的 修改 存盘 ) 时 ， 可 调用 
其 方法 close。 

1. 一 个 潜在 的 陷阱 

至 关 重 要 的 一 点 是 认识 到 shelve.open 返 回 的 对 象 并 非 普通 映射 ， 如 下 例 所 示 : 

>>> import shelve 

>>> s = shelve.open('test.dat') 

> | 了 时 

>>> s['x'].append('d') 

>>> s['x'] 

[sa% “by “ce 

'd' 到 哪里 去 了 呢 ? 

这 很 容易 解释 : 当 你 查看 shelf 对 象 中 的 元 素 时 ， 将 使 用 存储 版 重建 该 对 象 ， 而 当 你 将 一 个 
元 素 赋 给 键 时 ， 该 元 素 将 被 存储 。 在 上 述 示例 中 ， 发 生 的 事情 如 下 。 
D 列表 ['a'，'b'，'c'] 被 存储 到 s 的 'x' 键 下 。 
口 获取 存储 的 表示 ， 并 使 用 它 创 建 一 个 新 列表 ， 再 将 'd 附加 到 这 个 新 列表 末尾 ， 但 这 个 修 
改 后 的 版 本 未 被 存储 ! 
口 最 后 ， 再 次 获取 原来 的 版 本 一 一 其 中 没有 'd ' 。 
要 正确 地 修改 使 用 模块 shelve 存 储 的 对 象 ， 必 须 将 获取 的 副本 赋 给 一 个 临时 变量 ， 并 在 修改 
这 个 副本 后 再 次 存储 ”: 






























































>>> temp = s['x'] 

>>> temp.append('d') 

>>> s['x'] = temp 

>>> s['x'] 

[I et | 

还 有 另 一 种 避免 这 个 问题 的 办 法 : 将 函数 open 的 参数 writeback 设 置 为 True。 这 样 ， 从 shelf 
对 象 读 取 或 赋 给 它 的 所 有 数据 结构 都 将 保存 到 内 存 ( 缓存 ) 中 ， 并 等 到 你 关闭 shelf 对 象 时 才 将 
它们 写 和 人 磁盘 中 。 如 果 你 处 理 的 数据 不 多 ， 且 不 想 操心 这 些 问 题 ， 将 参数 writeback 设 置 为 True 
可 能 是 个 不 错 的 主意 。 在 这 种 情况 下 ， 你 必须 确保 在 处 理 完 毕 后 将 shelf 对 象 关闭 。 为 此 ， 一 种 
| 将 shelf 对 象 用 作 上 下 文 管理 器 ， 这 将 在 下 一 章 讨 论 。 

一 个 简单 的 数据 库 示 例 
a 





























@ 感谢 Luther Blissett 指 出 这 一 点 。 
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代码 清单 10-8 一 个 简单 的 数据 库 应 用 程序 


# database.py 
import sys, shelve 


def store person(db): 


nn 


让 用 户 输 入 数据 并 将 其 存储 到 shelf 对 象 中 
pid = input('Enter unique ID number: ') 
person = {} 
person['name'] = input('Enter name: ') 
person['age'] = input('Enter age: ') 
person['phone'] = input('Enter phone number: ') 
db[pid] = person 


def lookup person(db): 


让 用 户 输入 ID 和 所 需 的 字段 ， 并 从 shelf 对 象 中 获取 相应 的 数据 

pid = input('Enter ID number: ') 

field = input('What would you like to know? (name, age, phone) ') 
field = field.strip().lower() 








print(field.capitalize() + ':', db[pid][field]) 
def print help(): 
print('The available commands are:') 
print('store : Stores information about a person') 
print('lookup : Looks up a person from ID number') 
print('quit : Save changes and exit') 
print('? : Prints this message') 
def enter command(): 


cmd = input('Enter command (? for help): ') 
cmd = cmd.strip().lower() 
return cmd 


def main(): 
database = shelve.open('C:\\database.dat') # 你 可 能 想 修改 这 个 名 称 
try: 
while True: 
cmd = enter command() 
if cmd == 'store': 
store person(database) 
elif cmd == “Lookup : 
lookup person(database) 





elif cmd == '?': 
print help() 
elif cmd == 'quit": 


return 
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finally: 
database.close() 


if name == ' main ': main() 


代码 清单 10-8 所 示 的 程序 有 几 个 有 趣 的 特征 。 

口 所 有 代码 都 放 在 函数 中 ， 这 提高 了 程序 的 结构 化 程度 (一 个 可 能 的 改进 是 将 这 些 函 数 作 

为 一 个 类 的 方法 )。 

口 主 程序 位 于 函数 main 中 ， 这 个 函数 仅 在 _name == '_main “时 才 会 被 调用 。 这 意味 着 可 

在 另 一 个 程序 中 将 这 个 程序 作为 模块 导 和 人 人， 再 调用 末 数 main。 

口 在 函数 main 中 ， 我 打开 一 个 数据 库 〈shelf )， 再 将 其 作为 参数 传递 给 其 他 需要 它 的 函数 。 
由 于 这 个 程序 很 小 ， 我 原本 可 以 使 用 一 个 全 局 变量 ， 但 在 大 多 数 情况 下 ， 最 好 不 要 使 用 
全 局 变量 一 一 除非 你 有 理由 这 样 做 。 

口 读 入 一 些 值 后 , 我 调用 strip 和 lower 来 修改 它们 ,因为 仅 当 提供 的 键 与 存储 的 键 完全 相同 
时 ,它们 才 匹 配 。 如 果 对 用 户 输入 的 内 容 都 调用 strip 和 lower， 用 户 输入 时 就 无 需 太 关心 
大 小 写 ， 且 在 输入 开头 和 末尾 有 多 余 的 空白 也 没有 关系 。 另 外 ， 注 意 到 打印 字段 名 时 使 
用 了 capitalize。 

口 为 确保 数据 库 得 以 妥善 的 关闭 ， 我 使 用 了 try 和 finally。 不 知道 什么 时 候 就 会 出 现 问题 ， 
进而 引发 异常 。 如 果 程 序 终止 时 未 妥善 地 关闭 数据 库 ， 数 据 库 文 件 可 能 受 损 ， 变 得 毫 无 
用 处 。 通 过 使 用 try 和 finally, 可 避免 这 样 的 情况 发 生 。 我 原本 也 可 像 第 11 章 介绍 的 那样 ， 
将 shelf 用 作 上 下 文 管理 需 。 

我 们 来 试 试 这 个 数据 库 。 下 面 是 一 个 示例 交互 过 程 : 

Enter Command (? for help): ? 

The available commands are: 


store : Stores information about a person 

lookup : Looks up a person from ID number oo 
quit  : Save changes and exit 

? : Prints this message 

Enter command (? for help): store 

Enter unique ID number: 001 

Enter name: Mr. Gumby 

Enter age: 42 
n 
n 




































































ter phone number: 555-1234 

ter command (? for help): lookup 
ter ID number: 001 

hat would you like to know? (name, age, phone) phone 
Phone: 555-1234 

Enter command (? for help): quit 


这 个 交互 过 程 并 不 是 很 有 趣 。 我 原本 可 以 使 用 普通 字典 ( 而 不 是 shelf 对 象 ) 来 完成 这 个 任 
退出 这 个 程序 后 ， 来 看 看 再 次 运行 它 时 ( 这 也 许 是 在 第 二 天 ) 发 生 的 情况 。 


Enter command (? for help): lookup 
Enter ID number: 001 


mm mm mm 
< 
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What would you like to know? (name, age, phone) name 

Name: Mr. Gumby 

Enter command (? for help): quit 

如 你 所 见 ， 这 个 程序 读 取 前 面 运行 它 时 创建 的 文件 ， 该 文件 依然 包含 Mr. Gumby! 

请 随便 实验 这 个 程序 , 看 看 你 能 否 扩 展 其 功能 并 让 它 对 用 户 更 友好 。 你 或 许 能 够 设计 出 一 个 
可 为 你 所 用 的 版 本 。 





提示 ”如果 要 以 这 样 的 格式 保存 数据 , 也 就 是 让 使 用 其 他 语言 编写 的 程序 能 够 轻松 地 读 取 它们 ， 
可 考虑 使 用 JSON 格 式 。Python 标 准 库 提 供 了 用 于 处 理 JSON 字 符 串 〈 在 这 种 字符 串 和 
Python 值 之 间 进 行 转换 ) 的 模块 json。 


10.3.8 Te 


有 些 人 面临 问题 时 会 想 :“ 我 知道 ,我 将 使 用 正则 表达 式 来 解决 这 个 问题 。” 这 
让 他 们 面临 的 问题 变 成 了 两 个 。 





Jamie Zawinski 
模块 ze 提供 了 对 正则 表达 式 的 支持 。 如 果 你 听 说 过 正则 表达 式 ， 就 可 能 知道 它们 有 多 厉害 ; 
如 果 没 有 ， 就 等 着 大 吃 一 惊 吧 。 
然而 ， 需 要 指出 的 是 ， 要 掌握 正则 表达 式 有 点 难 。 关 键 是 每 次 学 习 一 点 点 : 只 考虑 完成 特定 
任务 所 需 的 知识 。 预 先 将 所 有 的 知识 牢记 在 心 毫 无 意义 。 本 节 描 述 模块 ze 和 正则 表达 式 的 主要 功 
能 ， 让 你 能 够 快速 上 手 。 






































提示 。 除 标准 文档 外 ，Andrew Kuchling 扎 写 的 文章 “Regular Expression HOWTO”( https://docs. 
python.org/3/howto/regex.html ) 也 是 很 有 用 的 Python 正 则 表达 式 学 习 资 料 。 


1. 正则 表达 式 是 什么 

正则 表达 式 是 可 匹配 文本 片段 的 模式 。 最 简单 的 正则 表达 式 为 普通 字符 串 ， 与 它 自己 匹配 。 
换 而 言 之 , 正则 表达 式 'python' 与 字符 串 'python' 匹配。 你 可 使 用 这 种 匹配 行为 来 完成 如 下 工作 : 
在 文本 中 查找 模式 ， 将 特定 的 模式 替换 为 计算 得 到 的 值 ， 以 及 将 文本 分 割 成 片段 。 

@ 通配符 

正则 表达 式 可 与 多 个 字符 串 匹 配 , 你 可 使 用 特殊 字符 来 创建 这 种 正则 表达 式 。 例 如 ,句点 与 
除 换行 符 外 的 其 他 字符 都 匹配 ， 因 此 正则 表达 式 ' .ython' 与 字符 串 'python' 和 'jython' 都 匹配 。 
它 还 与 'qython' 、'+ython' 和 ' ython' (第 一 个 字符 为 空格 ) 等 字符 串 匹配 ， 但 不 与 'cpython'、 
'ython ' 等 字符 串 匹配 ， 因 为 句点 只 与 一 个 字符 匹配 ， 而 不 与 零 或 两 个 字符 匹配 。 

句点 与 除 换行 符 外 的 任何 字符 都 匹配 ， 因 此 被 称 为 通配符 (wildcard )。 

@ 对 特殊 字符 进行 转 义 

普通 字符 只 与 自己 匹配 ， 但 特殊 字符 的 情况 完全 不 同 。 例 如 ， 假 设 要 匹配 字符 串 
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'python.org' ,可 以 直接 使 用 模式 'python.org ' 吗 ? 可 以 ,但 它 也 与 "pythonzorg ' 匹 配 ( 还 记得 吗 ? 
句点 与 除 换行 符 外 的 其 他 字符 都 匹配 )， 这 可 能 不 是 你 想 要 的 结果 。 要 让 特殊 字符 的 行为 与 普通 
字符 一 样 ， 可 对 其 进行 转 义 : 像 第 1 章 对 字符 串 中 的 引号 进行 转 义 时 所 做 的 那样 ， 在 它 前 面 加 上 
一 个 反 斜 杜 。 因 此 ， 在 这 个 示例 中 ， 可 使 用 模式 'python\\.org' ， 它 只 与 'python.org' 匹 配 。 

请 注意 ,为 表示 模块 re 要 求 的 单个 反 斜 杠 , 需要 在 字符 串 中 书写 两 个 反 斜 村 ,让 解释 器 对 其 
进行 转 义 。 换 而 言 之 , 这 里 包含 两 层 转 义 : 解释 器 执行 的 转 义 和 模块 ze 执行 的 转 义 。 实 际 上 , 在 
有 些 情况 下 也 可 使 用 单个 反 斜 杠 ， 让 解释 器 自动 对 其 进行 转 义 , 但 请 不 要 这 样 依赖 解释 器 。 如 果 
你 厌烦 了 两 个 反 斜 杆 ， 可 使 用 原始 字符 串 ， 如 rr'python\.org'。 

@ 字符 集 

匹配 任何 字符 很 和 用 ,但 有 时 你 需要 更 细致 地 控制 。 为 此 ， 可 以 用 方 括号 将 一 个 子 串 括 起 ， 
创建 一 个 所 谓 的 字符 集 。 这 样 的 字符 集 与 其 包含 的 字符 都 匹配 ， 例 如 ' [pj]ython' 与 'python' 和 
'jython' 都 匹配 ， 但 不 与 其 他 字符 串 匹 配 。 你 还 可 使 用 范围 ， 例 如 ' [a-z]' 与 a~z 的 任何 字母 都 匹 
配 。 你 还 可 组 合 多 个 访问 ， 方 法 是 依次 列 出 它们 ， 例 如 ' [a-zA-Z0-9] ' 与 大 写字 母 、 小 写字 母 和 
数字 都 匹配 。 请 注意 ， 字 符 集 只 能 匹配 一 个 字符 。 

要 指定 排除 字符 集 ， 可 在 开头 添加 一 个 ^ 字 符 ， 例 如 '[^abc]' 与 除 a、b 和 c 外 的 其 他 任何 字符 
都 匹配 。 























































































































字符 集中 的 特殊 字符 
一 般 而 言 ， 对 于 诸如 句点 、 星 号 和 问号 等 特殊 字符 ， 要 在 模式 中 将 其 用 作 字 面 字符 而 不 
是 正则 表达 式 运算 符 ， 必 须 使 用 反 斜 杠 对 其 进行 转 义 。 在 字符 集中 ， 通 常 无 需 对 这 些 字符 进 
行 转 义 ， 但 进行 转 义 也 是 完全 合法 的 。 然 而 ， 你 应 牢记 如 下 规则 。 
口 脱 字 符 〈^) 位 于 字符 集 开 头 时 ， 除 非 要 将 其 用 作 排 除 运算 符 ， 否 则 必须 对 其 进行 转 
义 。 换 而 言 之 ， 除 非 有 意 为 之 ， 否 则 不 要 将 其 放 在 字符 集 开头 。 
口 同样 ， 对 于 右 方 括号 ( ] ) 和 连 字符 ( - ) ， 要 么 将 其 放 在 字符 集 开 头 ， 要 么 使 用 反 狼 
杠 对 其 进行 转 义 。 实 际 上 ， 如 果 你 愿意 ， 也 可 将 连 字 符 放 在 字符 集 末 尾 。 





@ 二 选 一 和 子 模 式 

需要 以 不 同 的 方式 处 理 每 个 字符 时 , 字符 集 很 好 , 但 如 果 只 想 匹 配 字符 串 'python' 和 'perl'， 
该 如 何 办 呢 ? 使 用 字符 集 或 通配符 无 法 指定 这 样 的 模式 ， 而 必须 使 用 表示 二 选 一 的 特殊 字符 : 管 
道 字符 ( | )。 所 需 的 模式 为 "python|perl '。 

然而 ， 有 时 候 你 不 想 将 二 选 一 运算 符 用 于 整个 模式 ， 而 只 想 将 其 用 于 模式 的 一 部 分 。 为 此 ， 
可 将 这 部 分 ( 子 模式 ) 放 在 圆 括 号 内 。 对 于 前 面 的 示例 ， 可 重 写 为 'p(ython|er1l)'。 请 注意 , 单 
个 字符 也 可 称 为 子 模式 。 

@ 可 选 模 式 和 重复 模式 

通过 在 子 模式 后 面 加 上 问号 ,可 将 其 指定 为 可 选 的 ， 即 可 包含 可 不 包含 。 例如， 下 面 这 个 不 
太 好 懂 的 模式 : 
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r'(http://)? (www\.)?python\ .org" 
只 与 下 面 这 些 字 符 串 匹配 : 


‘http://www.python.org’ 
‘http://python.org' 
‘www.python.org’ 
"python.org 


对 于 这 个 示例 ， 需 要 注意 如 下 几 点 。 
口 我 对 句点 进行 了 转 义 ， 以 防 它 充当 通配符 。 
口 为 减少 所 需 的 反 斜 杠 数量 ， 我 使 用 了 原始 字符 串 。 
口 每 个 可 选 的 子 模式 都 放 在 圆 括号 内 。 
口 每 个 可 选 的 子 模式 都 可 以 出 现 ， 也 可 以 不 出 现 。 
间 号 表示 可 选 的 子 模式 可 出 现 一 次 , 也 可 不 出 现 。 还 有 其 他 几 个 运算 符 用 于 表示 子 模 式 可 重 
复 多 次 。 
口 (pattern)*: pattern 可 重复 0、1 或 多 次 。 
口 (pattern)+: pattern 可 重复 1 或 多 次 。 
口 (pattern){m,n}: 模式 可 从 父 m~n 次 。 
例如 ，r'w*\.python\.org' 与 'www.python.org' 匹 配 ， 也 与 '.python.org' 、'ww.python.org' 
和 'wwwwwww.python.org' 匹配 。 同 样 ，r'w+\.python\.org' 与 'w.python.org' 匹 配 , 但 与 '.python. 
org ' 不 匹配 ， 而 fw{3,4 作 .pythonN\.org' 只 与 "www.python.org' 和 "wwww.python.org ' 匹 配 。 


























注意 ”在 这 里 ， 术 语 匹 配 指 的 是 与 整个 字符 串 匹配 ， 而 函数 match ( 参见 表 10-9 ) 只 要 求 模 式 与 
字符 串 开 头 匹配 。 


@ 字符 串 的 开头 和 末尾 

到 目前 为 止 , 讨论 的 都 是 模式 是 否 与 整个 字符 串 匹 配 ,但 也 可 查找 与 模式 匹配 的 子 串 ， 如 字 
符 串 "www.python.org ' 中 的 子 串 "www' 与 模式 "w+ ' 匹 配 。 像 这 样 查找 字符 串 时 ， 有 时 在 整个 字符 串 
开头 或 未 尾 查找 很 有 用 。 例 如 ， 你 可 能 想 确定 字符 串 的 开头 是 否 与 模式 "ht+p' 匹 配 ， 为 此 可 使 用 
脱 字 符 ('^' ) 来 指出 这 一 点 。 例 如 ，'^ht+p' 与 'http://python.org' 和 'htttttp://python.org' 
匹配 ， 但 与 "ww.http.org ' 不 匹配 。 同 样 ， 要 指定 字符 串 末 尾 ， 可 使 用 美元 符号 ($ )。 

















注 


谢 


完整 的 正则 表达 式 运算 符 清单 请 参阅 Python 库 中 的 Regular Expression Syntax 部 分 。 


2. 模块 re 的 内 容 
如 果 没 有 用 武之 地 ,知道 如 何 书写 正则 表达 式 也 没 多 大 意义 。 模块 re 包含 多 个 使 用 正则 表达 
式 的 函数 ， 表 10-9 描 述 了 其 中 最 重要 的 一 些 。 
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表 10-9 ”模块 re 中 一 些 重要 的 函数 





























函 数 描 述 
compile(pattern[, flags]) 根据 包含 正则 表达 式 的 字符 串 创建 模式 对 象 
search(pattern, string[, flags]) 在 字符 串 中 查找 模式 
match(pattern, string[, flags]) 在 字符 串 开头 匹配 模式 
split(pattern, string[, maxsplit=0]) 根据 模式 来 分 割 字符 串 
findall(pattern, string) 返回 一 个 列表 ， 其 中 包含 字符 串 中 所 有 与 模式 匹配 的 子 串 
sub(pat, repl, string[, count=0]) 将 字符 串 中 与 模式 pat 匹 配 的 子 串 都 替换 为 repl 
escape(string) 对 字符 串 中 所 有 的 正则 表达 式 特 殊 字符 都 进行 转 义 





























函数 re.compile 将 用 字符 串 表 示 的 正则 表达 式 转 换 为 模式 对 象 ， 以 提高 匹配 效率 。 调 用 
search 、match 等 函数 时 ， 如 果 提 供 的 是 用 字符 串 表 示 的 正则 表达 式 ， 都 必须 在 内 部 将 它们 转换 
为 模式 对 象 。 通过 使 用 函数 compile 对 正则 表达 式 进 行 转换 后 ,每 次 使 用 它 时 都 无 需 再 进行 转换 。 
模式 对 象 也 有 搜索 /匹配 方法 ， 因此 re.search(pat, string) (其 中 pat 是 一 个 使 用 字符 串 表 示 的 正 
则 表达 式 ) 等 价 于 pat.search(string) (其 中 pat 是 使 用 compile 创 建 的 模式 对 象 )。 编译 后 的 正则 
表达 式 对 象 也 可 用 于 模块 re 中 的 普通 函数 中 。 

函数 re.search 在 给 定 字 符 串 中 查找 第 一 个 与 指定 正则 表达 式 匹 配 的 子囊 。 如 果 找 到 这 样 的 
子 串 ,将 返回 Matchobject (结果 为 真 )， 否则 返回 None ( 结果 为 假 )。 鉴 于 返回 值 的 这 种 特征 ， 可 
在 条 件 语 句 中 使 用 这 个 函数 ， 如 下 所 示 : 


if re.search(pat, string): 
print('Found it!') 


然而 ， 如 果 你 需要 获悉 有 关 匹 配 的 子 串 的 详细 信息 ， 可 查看 返回 的 Match0bject。 下 一 节 将 
更 详细 地 介绍 Matchobject。 

函数 re.match 尝 试 在 给 定 字符 串 开 头 查找 与 正则 表达 式 匹 配 的 子 串 ， 因 此 re.match('p "， 
'python' ) 返 回 真 ( Matchobject )， 而 re.match('p'，'www.python.org') 返 回 假 (None )。 







































































注意 “函数 match 在 模式 与 字符 串 开 头 匹 配 时 就 返回 True， 而 不 要 求 模式 与 整个 字符 串 匹 配 。 如 
果 要 求 与 整个 字符 串 匹配 ， 需 要 在 模式 末尾 加 上 一 个 美元 符号 。 美 元 符号 要 求 与 字符 串 
末尾 匹配 ， 从 而 将 匹配 检查 延伸 到 整个 字符 串 。 








函数 re.split 根 据 与 模式 匹配 的 子 串 来 分 割 字符 串 。 这 类 似 于 字符 串 方 法 split， 但 使 用 正 
则 表达 式 来 指定 分 隔 符 ， 而 不 是 指定 固定 的 分 隔 符 。 例 如 ， 使 用 字符 串 方 法 split 时 ， 可 以 字符 
串 '， ' 为 分 隔 符 来 分 割 字符 串 ， 但 使 用 re. split 时 ， 可 以 空格 和 去 号 为 分 隔 符 来 分 割 字符 串 。 
>>> some text = 'alpha, beta,,,,gamma delta' 


>>> re.split('[, ]+', some text) 
[ "alpha'， 'beta', 'gamma', 'delta'] 
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注意 “如果 模式 包含 圆 括号 , 将 在 分 割 得 到 的 子 串 之 间 插 入 括号 中 的 内 容 。 例 如 , re.split('o(0)'， 
'foobar' ) 的 结果 为 ['f'，'o'，'bar']。 

从 这 个 示例 可 知 ， 返 回 值 为 子 串 列 表 。 参 数 maxsplit 指 定 最 多 分 割 多 少 次 。 

>>> re.split('[, ]+', some text, maxsplit=2) 

['alpha', 'beta', 'gamma delta'] 

>>> re.split('[, ]+', some text, maxsplit=1) 

['alpha' , 'beta,,, ,gamma delta' |] 

函数 re.findall 返 回 一 个 列表 ， 其 中 包含 所 有 与 给 定 模 式 匹 配 的 子 串 。 例 如 ， 要 找 出 字符 囊 
包含 的 所 有 单词 ， 可 像 下 面 这 样 做 : 

>>> pat = '[a-zA-Z]+' 

>>> text = '"Hm... Err -- are you sure?" he said, sounding insecure." 

>>> re.findall(pat, text) 

['Hm', 'Err', 'are', 'you', 'sure', 'he', 'said', 'sounding', 'insecure'] 

要 查找 所 有 的 标点 符号 ， 可 像 下 面 这 样 做 : 

>>> pat = r'[.?\-",]+' 

>>> re.findall(pat, text) 

[ss dg We 25 | 

请 注意 ， 这 里 对 连 字 符 ( - ) 进行 了 转 义 ， 因 此 Python 不 会 认为 它 是 用 来 指定 字符 范围 的 
(如 a-z)。 

函数 re.sub 从 左 往 右 将 与 模式 匹配 的 子 串 蔡 换 为 指定 内 容 。 请 看 下 面 的 示例 ; 


>>> pat = '{name}' 

>>> text = "Dear {name}...’ 

>>> re.sub(pat, 'Mr. Gumby', text) 
‘Dear Mr. Gumby..." 


有 关 如 何 更 有 效 地 使 用 这 个 函数 ， 请 参阅 随后 的 一 节 。 

Te.escape 是 一 个 工具 函数 ， 用 于 对 字符 串 中 所 有 可 能 被 视 为 正则 表达 式 运算 符 的 字符 进行 
转 义 。 使 用 这 个 函数 的 情况 有 : 字符 串 很 长 ， 其 中 包含 大 量 特殊 字符 ， 而 你 不 想 输入 大 量 的 反 斜 
杠 ; 你 从 用 户 那 里 获取 了 一 个 字符 串 ( 例如 ， 通 过 函数 input )， 想 将 其 用 于 正则 表达 式 中 。 下 面 
的 示例 说 明了 这 个 函数 的 工作 原理 : 


>>> re.escape('www.python.org') 
‘www\\.python\\.org’ 

>>> re.escape('But where is the ambiguity?') 
‘But\\ where\\ is\\ the\\ ambiguity\\? 























注意 ”在 表 10-9 中 ， 注 意 到 有 些 函 数 接受 一 个 名 为 flags 的 可 选 参数 。 这 个 参数 可 用 于 修改 正则 
表达 式 的 解读 方式 。 有 关 这 方面 的 详细 信息 ， 请 参阅 “Python 库 参 考 手册 ”中 讨论 模块 


re 的 部 分 。 


10.3 ”标准 库 : 一 些 深 受 欢 迎 的 模块 203 





3. 匹配 对 象 和 编组 

在 模块 re 中 ， 查 找 与 模式 匹配 的 子 串 的 函数 都 在 找到 时 返回 Match0bject 对 象 。 这 种 对 象 包 
含 与 模式 匹配 的 子 串 的 信息 , 还 包含 模式 的 哪 部 分 与 子 串 的 哪 部 分 匹配 的 信息 。 这 些 子 串 部 分 称 
为 编组 ( group )。 
扁 组 就 是 放 在 圆 括号 内 的 子 模式 ， 它 们 是 根据 左边 的 括号 数 编号 的 ， 其 中 编组 0 指 的 是 整个 
模式 。 因 此 ， 在 下 面 的 模式 中 : 

'There (was a (wee) (cooper)) who (lived in Fyfe)' 

包含 如 下 编组 : 


0 There was a wee cooper who lived in Fyfe 
1 was a wee cooper 

2 wee 

3 cooper 

4 lived in Fyfe 


通常 , 编组 包含 诸如 通配符 和 重复 运算 符 等 特殊 字符 , 因此 你 可 能 想 知道 与 给 定编 组 匹配 的 
内 容 。 例 如 ， 在 下 面 的 模式 中 : 

IT WwWWN.(.+)N\.Com$' 

编组 0 包含 整个 字符 串 ， 而 编组 1 包含 'www. ' 和 ' .com' 之 间 的 内 容 。 通 过 创建 类 似 于 这 样 的 模 
式 ， 可 提取 字符 串 中 你 感 兴趣 的 部 分 。 

表 10-10 描 述 了 re 匹配 对 象 的 一 些 重要 方法 。 


表 10-10 re 匹配 对 象 的 重要 方法 
方 法 描述 
group([group1, ...]) 取 与 给 定子 模式 ( 编组 ) 匹配 的 子 串 
start([group]) 可 与 给 定编 组 匹配 的 子 串 的 起 始 位 置 
引 与 给 定编 组 匹配 的 子 串 的 终止 位 置 〈 与 切片 一 样 ， 不 包含 终止 位 置 ) 
回 与 给 定编 组 匹配 的 子 串 的 起 始 和 终止 位 置 




















党 


















































漂 





岗 











end([group]) 
span([group]) 


岗 





























岗 

















方法 group 返 回 与 模式 中 给 定编 组 匹配 的 子 串 。 如 果 没 有 指定 编组 号 ， 则 默认 为 0。 如 果 只 指 
定 了 一 个 编组 号 (或 使 用 默认 值 0 ), 将 只 返回 一 个 字符 串 ; 否则 返回 一 个 元 组 ,其 中 包含 与 给 定 
编组 匹配 的 子囊 。 




















注意 除 整 个 模式 (编组 0 ) 外 ， 最 多 还 可 以 有 99 个 编组 ， 编 号 为 1~99。 








方法 start 返 回 与 给 定编 组 ( 默认 为 0， 即 整个 模式 ) 匹配 的 子 串 的 起 始 索引 。 

方法 end 类 似 于 start， 但 返回 终止 索引 加 1 

方法 span 返 回 一 个 元 组 ， 其 中 包含 与 给 定编 组 ( 默认 为 0%， 即 整个 模式 ) 匹配 的 子 串 的 起 始 
索引 和 终止 索引 。 
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下 面 的 示例 说 明了 这 些 方法 的 工作 原理 : 





>>> m = re.match(r'www\.(.*)\..{3}', 'www.python.org') 
>>> m.group(1) 

"python 

>>> m.start(1) 

4 

>>> m.end(1) 

10 

>>> m.span(1) 

(4，10) 


4. 替换 中 的 组 号 和 函数 

在 第 一 个 re.sub 使 用 示例 中 ， 我 只 是 将 一 个 子 串 替换 为 另 一 个 。 这 也 可 使 用 字符 串 方 法 
replace (参见 3.4 节 ) 轻松 地 完成 。 当 然 ， 正 则 表达 式 很 有 用 ， 因 为 它们 让 你 能 够 以 更 灵活 的 方 
式 进 行 搜索 ， 还 让 你 能 够 执行 更 复杂 的 替换 。 

为 利用 re.sub 的 强大 功能 ， 最 简单 的 方式 是 在 替代 字符 串 中 使 用 组 号 。 在 替换 字符 串 中 , 任 
何 类 似 于 '\\n' 的 转 义 序列 都 将 被 奉 换 为 与 模式 中 编组 n 匹 配 的 字符 串 。 例 如 ， 假 设 要 将 
'#xsomething* "替换 为 "<em>something</em>' ， 其 中 前 者 是 在 纯 文本 文档 ( 如 电子 邮件 ) 中 表示 突 
出 的 普通 方式 ， 而 后 者 是 相应 的 HTML 代 码 ( 用 于 网 页 中 )。 下 面 先 来 创建 一 个 正则 表达 式 。 


>>> emphasis pattern = r'\*([^\*]+)\*' 


请 注意 , 正则 表达 式 容 易 变 得 难以 理解 , 因此 为 方便 其 他 人 (也 包括 你 自己 ) 以 后 阅读 代码 ， 
使 用 有 意义 的 变量 名 很 重要 。 



































提示 要 让 正则 表达 式 更 容易 理解 ， 一 种 办 法 是 在 调用 模块 re 中 的 函数 时 使 用 标志 VERBOSE。 这 
让 你 能 够 在 模式 中 添加 空白 ( 空格 、 制 表 符 、 换 行 符 等 )， 而 Te 将 忽略 它们 一 一 除非 将 它 
放 在 字符 类 中 或 使 用 反 斜 杠 对 其 进行 转 义 。 在 这 样 的 正则 表达 式 中 ， 你 还 可 添加 注释 。 
下 述 代 码 创 建 的 模式 对 象 与 emphasis _ pattern 等 价 ， 但 使 用 了 VERBOSE 标 志 : 


>>> emphasis pattern = Te.Compile(T" 


eh # 起 始 突 出 标志 一 一 一 个 星 号 

el # 与 要 突出 的 内 容 匹配 的 编组 的 起 始 位 置 
.2 [^\#]+ # 与 除 星 号 外 的 其 他 字符 都 匹配 

de) # 编组 到 此 结束 

A # 结束 突出 标志 


'', re.VERBOSE) 





创建 模式 后 ， 就 可 使 用 re.sub 来 完成 所 需 的 替换 了 。 


>>> re.sub(emphasis pattern, r'<em>\1</em>', 'Hello, *world*!') 
‘Hello, <em>world</em>!' 


如 你 所 见 ， 成功 地 将 纯 文本 转换 成 了 HTML 代 码 。 
然而 ， 通 过 将 函数 用 作 替 换 内 容 ， 可 执行 更 复杂 的 替换 。 这 个 函数 将 Match0bject 作 为 唯一 
的 参数 ， 它 返回 的 字符 串 将 用 作 替 换 内 容 。 换 而 言 之 ,你 可 以 对 匹配 的 字符 串 做 任何 处 理 ， 并 通 
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过 细致 的 处 理 来 生成 替换 内 容 。 你 可 能 会 问 ， 这 有 何 用 途 呢 ? 等 你 开始 尝试 使 用 正则 表达 式 后 ， 
将 发 现 这 种 机 制 的 用 途 非 常 多 ， 随 后 会 介绍 其 中 的 一 个 。 





贪 禁 和 非 贪 梦 模 式 
重复 运算 符 默 认 是 贪 禁 的 ,这 意味 着 它们 将 匹配 尽 可 能 多 的 内 容 。 例如 ,假设 重 写 了 
前 面 的 突出 程序 ， 在 其 中 使 用 了 如 下 模式 : 


>>> emphasis pattern = r'\*(.+)\*"' 


这 个 模式 与 以 星 号 打头 和 结尾 的 内 容 匹 配 。 好 像 很 完美 ， 不 是 吗 ? 但 情况 并 非 如 此 。 


>>> re.sub(emphasis pattern, r'<em>\1</em>', '*This* is *it*!') 
‘<em>This* is *it</em>!" 


如 你 所 见 , 这 个 模式 匹配 了 从 第 一 个 星 号 到 最 后 一 个 星 号 的 全 部 内 容 , 其 中 包含 另外 
两 个 星 号 ! 这 就 是 贪 禁 的 意思 : 能 匹配 多 少 就 匹配 多 少 。 

在 这 里 ,你 想 要 的 显然 不 是 这 种 过 度 贪 楚 的 行为 。 在 你 知道 不 应 将 菜 个 特定 的 字符 包 
含 在 内 时 ， 本章 前 面 的 解决 方案 ( 使 用 一 个 匹配 任何 非 星 号 字符 的 字符 集 ) 很 好 。 下 面 再 
来 看 另 一 个 场景 : 如 果 使 用 '**something**' 来 表示 突出 呢 ? 在 这 种 情形 下 ,在 要 强调 的 内 
容 中 包含 单个 星 号 不 是 问题 ， 但 如 何 避 免 过度 贪 禁 呢 ? 

这 实际 上 很 容易 ， 只 需 使 用 重复 运算 符 的 非 贪 村 版 即 可 。 对 于 所 有 的 重复 运算 符 ， 都 
可 在 后 面 加 上 问号 来 将 其 指定 为 非 贪 禁 的 。 

>>> emphasis pattern = r'\*\*(.+?)\*\*' 

>>> re.sub(emphasis pattern, r'<em>\1</em>', '**This** js **jt**|') 

‘<em>This</em> is <em>it</em>!" 

这 里 使 用 的 是 运算 符 +? 而 不 是 +。 这 意味 着 与 以 前 一 样 ， 这 个 模式 将 匹配 一 个 或 多 个 通 配 
符 ， 但 匹配 尽 可 能 少 的 内 容 ， 因 为 它 是 非 贪 著 的 。 因 此 ， 这 个 模式 只 匹配 到 下 一 个 \#N# ， 
即 它 末 尾 的 内 容 。 如 你 所 见 ， 效 果 很 好 。 








5. 找 出 发 件 人 
你 曾 将 邮件 保存 为 文本 文件 吗 ? 如 果 这 样 做 过 , 你 可 能 注意 到 文件 开头 有 大 量 难以 理解 的 文 
本 ， 如 代码 清单 10-9 所 示 。 


代码 清单 10-9 一 组 虚构 的 邮件 头 


From foo@bar.baz Thu Dec 20 01:22:50 2008 

Return-Path: <fooQbar.baz> 

Received: from xyzzy42.bar.com (xyzzy.bar.baz [123.456.789.42]) 

by frozz.bozz.floop (8.9.3/8.9.3) with ESMTP id BAA25436 

for <magnus@bozz.floop>; Thu, 20 Dec 2004 01:22:50 +0100 (MET) 

Received: from [43.253.124.23] by bar.baz 

(InterMail vM.4.01.03.27 201-229-121-127-20010626) with ESMTP 

id <20041220002242.ADASD123 .bar.baz@[43.253.124.23]>; Thu, 20 Dec 2004 00:22:42 +0000 
User-Agent: Microsoft-Outlook-Express-Macintosh-Edition/5.02.2022 

Date: Wed, 19 Dec 2008 17:22:42 -0700 














206 第 10 章 开 箱 即 用 





Subject: Re: Spam 

From: Foo Fie <foo@bar.baz> 

To: Magnus Lie Hetland <magnus@bozz.floop> 

CC: <Mr.Gumby@bar.baz> 

Message-ID: <B8467D62.84F%foo@baz .com> 

In-Reply-To: <20041219013308.A2655@bozz.floop> Mime- version: 1.0 
Content-type: text/plain; charset="US-ASCII" Content-transfer-encoding: 7bit 
Status: RO 

Content-Length: 55 

Lines: 6 

So long, and thanks for all the spam! 


Yours, 
Foo Fie 


我 们 来 尝试 找 出 这 封 邮件 的 发 件 人 。 如 果 你 仔细 查看 上 面 的 文本 ， 青 定 能 找 出 发 件 人 (尤其 
是 看 到 邮件 未 尾 的 签名 时 ), 但 你 能 找 出 普 适 的 规律 吗 ? 如何 提取 发 件 人 姓名 (不 包含 邮件 地 址 ) 
呢 ? 如 何 列 出 邮件 头 中 提 及 的 所 有 邮件 地 址 呢 ? 先 来 解决 第 一 个 问题 。 

包含 发 件 人 的 文本 行 以 'From:“ 打 头 ， 并 以 包含 在 尖 括 号 (< 和 > ) 内 的 邮件 地 址 结尾 ， 你 要 
提取 的 是 这 两 部 分 之 间 的 文本 。 如 果 使 用 模块 fileinput ， 这 个 任务 应 该 很 容易 完成 。 解 决 这 个 
问题 的 程序 如 代码 清单 10-10 所 示 。 























注意 ”如果 你 愿意 ， 也 可 在 不 使 用 正则 表达 式 的 情况 下 解决 这 个 问题 。 还 可 使 用 模块 email 来 解 
决 这 个 问题 。 


代码 清单 10-10” 找 出 发 件 人 的 程序 


# find sender.py 
import fileinput, re 
pat = re.compile('From: (.*) <.*?>$') 
for line in fileinput.input(): 
m = pat.match(line) 
if m: print(m.group(1)) 


可 像 下 面 这 样 运行 这 个 程序 (假设 电子 邮件 保存 在 文本 文件 message.eml 中 ): 
$ python find sender.py message.eml 
Foo Fie 
对 于 这 个 程序 ， 应 注意 如 下 几 点 。 
口 为 提高 处 理 效率 ， 我 编译 了 正则 表达 式 。 
口 我 将 用 于 匹配 要 提取 文本 的 子 模式 放 在 圆 括号 内 ， 使 其 变 成 了 一 个 编组 。 
口 我 使 用 了 一 个 非 贪 焚 模 式 ， 使 其 只 匹配 最 后 一 对 尖 括 号 〈 以 防 姓名 也 包含 尖 括 号 )。 
口 我 使 用 了 美元 符号 指出 要 使 用 这 个 模式 来 匹配 整 行 ( 直到 行 尾 )。 
口 我 使 用 了 if 语 句 来 确保 匹配 后 才 提 取 与 特定 编组 匹配 的 内 容 。 
要 列 出 邮件 关中 提 及 的 所 有 邮件 地 址 , 需要 创建 一 个 只 与 邮件 地 址 匹配 的 正则 表达 式 , 然后 
使 用 方法 findall 找 出 所 有 与 之 匹配 的 内 容 。 为 避免 重复 ， 可 将 邮件 地 址 存储 在 本 章 前 面 介绍 的 
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集合 中 。 最 后 ， 提 取 键 ,将 它们 排序 并 打印 出 来 。 


import fileinput, re 
pat = re.compile(r'[a-z\-\.]+@[a-z\-\.]+', re.IGNORECASE) 
addresses = set() 


for line in fileinput.input(): 
for address in pat.findall(line): 
addresses.add(address) 
for address in sorted(addresses): 
print address 


将 代码 清单 10-9 所 示 的 邮件 作为 输入 时 ， 这 个 程序 的 输出 如 下 : 


Mr .Gumby@bar .baz 
foo@bar .baz 
foo@baz .com 
magnus@bozz.floop 


请 注意 ， 排 序 时 大 写字 母 在 小 写字 母 之 前 。 











注意 这 里 并 没有 完全 按 问 题 的 要 求 做 。 问 题 要 求 找 出 邮件 头 中 的 地 址 ， 但 这 个 程序 找 出 了 整 
个 文件 中 的 所 有 地 址 。 为 避免 这 一 点 ， 可 在 遇 到 空 行 后 调用 fileinput.close()， 因 为 邮 
件 头 不 可 能 包含 空 行 。 如 果 有 多 个 文件 ， 也 可 在 遇 到 空 行 后 调用 fileinput.nextfile() 来 
处 理 下 一 个 文件 。 


6. 模板 系统 示例 

模板 〈template ) 是 一 种 文件 ， 可 在 其 中 插 人 具体 的 值 来 得 到 最 终 的 文本 。 例 如 ， 可 能 有 一 
个 只 需 插 入 收 件 人 姓名 的 邮件 模板 。Python 提 供 了 一 种 高 级 模板 机 制 : 字符 串 格式 设置 。 使 用 正 
则 表达 式 可 让 这 个 系统 更 加 高 级 。 假 设 要 把 所 有 的 ' [something]' (字段 ) 都 替换 为 将 something 
作为 Python 表达 式 计 算得 到 的 结果 。 因 此 ， 下 面 的 字符 串 : 

"The sum of 7 and 9 is [7 + 9]." 
应 转换 为 : 

"The sum of 7 and 9 is 16." 

另外 ， 你 还 希望 能 够 在 字段 中 进行 赋值 ， 使 得 下 面 的 字符 串 : 

'[name="Mr. Gumby" J]Hello, [namel]’' 
转换 成 : 

'Hello, Mr. Gumby’ 

这 看 似 很 复杂 ， 我 们 来 看 看 可 供 使 用 的 工具 。 
口 可 使 用 正则 表达 式 来 匹配 字段 并 提取 其 内 容 。 
口 可 使 用 eval 来 计算 表达 式 字符 串 ， 并 提供 包含 作用 域 的 字典 。 可 在 try/except 语 句 中 执行 

这 种 操作 。 如 果 出 现 SyntaxError 异 常 ， 就 说 明 你 处 理 的 可 能 是 语句 ( 如 赋值 语句 ) 而 不 

是 表达 式 ， 应 使 用 exec 来 执行 它 。 
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口 可 使 用 exec 来 执行 语句 字符 串 ( 和 其 他 语句 )， 并 将 模板 的 作用 域 存储 到 字典 中 。 
口 可 使 用 re.sub 将 被 处 理 的 字符 串 替 换 为 计算 得 到 的 结果 。 突 然 间 , 这 看 起 来 并 不 那么 吓人 
了 ， 不 是 吗 ? 



































提示 。 如果 任务 看 起 来 吓人 ， 将 其 分 解 为 较 小 的 部 分 几乎 总 是 大 有 神 益 。 另 外 ， 要 对 手头 的 工 
具 进 行 评估 ， 确 定 如 何 解 决 面临 的 问题 。 


代码 清单 10-11 提 供 了 一 个 示例 实现 。 


代码 清单 10-11 一 个 模板 系统 
# templates.py 


import fileinput, re 


# 与 使 用 方 括号 括 起 的 字段 匹配 
field pat = re.compile(r'\[(.+?)\]') 


# 我 们 将 把 变量 收集 到 这 里 : 
scope = {} 


# 用 于 调用 re.sub: 
def replacement (match): 
code = match.group(1) 
try: 
# 如 果 字 段 为 表达 式 ， 就 返回 其 结果 : 
return str(eval(code, scope)) 
except SyntaxError: 
# 否则 在 当前 作用 域内 执行 该 赋值 语句 
# 并 返回 一 个 空 字符 串 
return "" 


# 获取 所 有 文本 并 合并 成 一 个 字符 囊 : 


# (还 可 采用 其 他 办 法 来 完成 这 项 任务 ， 详 情 请 参见 第 11 章 ) 
ines = [] 

for line in fileinput.input(): 

lines.append(line) 

text = ''.join(lines) 


替换 所 有 与 字段 模式 匹配 的 内 容 : 

print(field pat.sub(replacement, text)) 

简 而 言 之 ， 这 个 程序 做 了 如 下 事情 。 

口 定义 一 个 用 于 匹配 字段 的 模式 。 

口 创建 一 个 用 作 模 板 作 用 域 的 字典 。 

口 定义 一 个 替换 函数 ， 其 功能 如 下 。 

加 从 match 中 获取 与 编组 1 匹配 的 内 容 ， 并 将 其 存储 到 变量 code 中 。 
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@ 将 作用 域 字典 作为 命名 空间 ,并 尝试 计算 code, 再 将 结果 转换 为 字符 串 并 返回 它 。 如 果 
成 功 ， 就 说 明 这 个 字段 是 表达 式 ， 因 此 万 事 大 吉 ; 否则 ( 即 引 发 了 SyntaxError 异 常 )， 
就 进入 下 一 步 。 

晶 在 对 表达 式 进 行 求 值 时 使 用 的 命名 空间 ( 作用 域 字典 ) 中 执行 这 个 字段 ， 并 返回 一 个 
空 字符 串 〈 因为 赋值 语句 没有 结果 )。 

口 使 用 fileinput 读 取 所 有 的 行 ， 将 它们 放 在 一 个 列表 中 ， 再 将 其 合并 成 一 个 大 型 字符 串 。 
口 调用 re.sub 来 使 用 替换 函数 来 替换 所 有 与 模式 field_pat 匹 配 的 字段 , 并 将 结果 打印 出 来 。 

















注意 在 以 前 的 Python 版 本 中 ， 相 比 于 下 面 的 做 法 ， 将 文本 行 放 到 一 个 列表 中 再 合并 的 效率 要 
高 得 多 : 
text = "" 


for line in fileinput.input(): 
text += line 


上 述 代码 虽然 看 起 来 很 优雅 ， 但 每 次 赋值 都 将 创建 一 个 新 的 字符 串 〈 在 原 有 字符 串 后 面 
附加 新 字符 串 )。 这 可 能 会 浪费 资源 ， 导 致 程序 运 行 缓慢 。 在 较 旧 的 Python 版 本 中 ， 这 种 
做 法 与 使 用 join 的 差别 可 能 很 大 ; 而 在 较 新 的 版 本 中 ， 使 用 运算 符 += 的 速度 可 能 更 快 。 
如 果 性 能 很 重要 ， 可 尝试 这 两 种 解决 方案 。 如 果 想 更 优雅 地 读 取 文件 中 的 所 有 文本 ， 可 
参阅 第 11 章 。 




















只 用 15 行 代码 (不 包括 空白 和 注释 )， 就 创建 了 一 个 强大 的 模板 系统 。 但 愿 你 已 认识 到 ， 通 
过 使 用 标准 库 ，Python 的 功能 变 得 非常 强大 。 为 结束 这 个 示例 ， 下 面 来 测试 一 下 这 个 模板 系统 : 
尝试 对 代码 清单 10-12 所 示 的 简单 文件 运行 它 。 


代码 清单 10-12 一 个 简单 的 模板 示例 


[x = 2] 
[y = 3] 
The sum of [x] and [y] is [x + y]. 


你 应 看 到 如 下 输出 : 

The sum of 2 and 3 is 5. 

别 急 ， 还 可 以 做 得 更 好 ! 由 于 使 用 了 fileinput ， 因 此 可 依次 处 理 多 个 文件 。 这 意味 着 可 以 
使 用 一 个 文件 来 定义 变量 的 值 ， 并 将 另 一 个 文件 用 作 模 板 ， 以 便 在 其 中 搬入 这 些 值 。 例 如 ， 可 能 
有 一 个 包含 定义 的 文件 ( magnus.txt， 如 代码 清单 10-13 所 示 )， 还 有 一 个 模板 文件 ( template.txt， 
如 代码 清单 10-14 所 示 )。 


代码 清单 10-13 一些 模板 定义 
[name = 'Magnus Lie Hetland' ] 
[email = 'magnus@foo.bar' ] 
[language = 'python' ] 
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代码 清单 10-14 ”一 个 模板 


[import time] 
Dear [name], 


I would like to learn how to program. I hear you 
use the [language] language a lot -- is it something I 
should consider? 


And, by the way, is [email] your correct email address? 





Fooville, [time.asctime()] 

Oscar Frozzbozz 

import time 并 非 赋值 语句 〈 而 是 用 于 做 准备 工作 的 语句 )， 但 由 于 程序 没 那么 挑剔 (使 用 了 
一 条 简单 的 try/except 语 句 ), 它 支 持 任 何 可 使 用 eval 和 exec 进 行 处 理 的 表达 式 和 语句 。 可 像 下 面 
这 样 运行 这 个 程序 ( 假设 是 在 UNIX 命 令 行 中 ): 

$ python templates.py magnus.txt template.txt 

你 将 看 到 类 似 于 下 面 的 输出 : 


Dear Magnus Lie Hetland, 


























I would like to learn how to program. I hear you use the python language a lot -- is it something I 
should consider? 


And, by the way, is magnus@foo.bar your correct email address? 
Fooville, Mon Jul 18 15:24:10 2016 


Oscar Frozzbozz 


虽然 这 个 模板 系统 能 够 执行 非常 复杂 的 替换 ,但 也 存在 一 些 缺陷 。 例 如 ， 如 果 能 够 以 更 灵活 
的 方式 编写 定义 文件 就 好 了 。 如 果 使 用 execfile 来 执行 它 ， 就 可 使 用 普通 Python 语法 了 。 这 样 还 
将 修复 输出 开头 包含 空 行 的 问题 。 

你 还 能 想 出 其 他 改进 这 个 程序 的 方式 吗 ” 对 于 这 个 程序 使 用 的 概念 , 你 还 能 想到 它们 的 其 他 
用 途 吗 ? 无 论 要 精通 哪 种 编程 语言 , 最 佳 的 方式 都 是 尝试 使 用 它 一 一 找 出 其 局 限 性 和 长 处 。 看 看 
你 能 不 能 重 写 这 个 程序 ， 让 它 做 得 更 好 ， 并 满足 你 的 需求 。 


10.3.9 其 他 有 趣 的 标准 模块 


虽然 本 章 介 绍 的 内 容 很 多 , 但 这 只 是 标准 库 的 冰山 一 角 。 为 激发 你 深入 探索 的 兴趣 ,下 面 简 

单 说 说 其 他 几 个 很 棒 的 库 。 

口 argparse: 在 UNIX 中 ， 运 行 命令 行程 序 时 常常 需要 指定 各 种 选项 ( 开关 )，Python 解 释 器 

就 是 这 样 的 典范 。 这 些 选 项 都 包含 在 sys.argv 中 ,但 要 正确 地 处 理 它们 绝 非 容易 。 模 块 

argparse 使 得 提供 功能 齐备 的 命令 行 界面 易如反掌 。 

口 cmd: 这 个 模块 让 你 能 够 编写 类 似 于 Python 交互 式 解释 器 的 命令 行 解释 器 。 你 可 定义 命令 ， 
让 用 户 能 够 在 提示 符 下 执行 它们 。 或 许可 使 用 这 个 模块 为 你 编写 的 程序 提供 用 户 界面 ? 
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口 csv: CSV 指 的 是 去 号 分 隔 的 值 (comma-seperated values )， 很 多 应 用 程序 ( 如 很 多 电子 表 
格 程序 和 数据 库 程 序 ) 都 使 用 这 种 简单 格式 来 存储 表格 数据 。 这 种 格式 主要 用 于 在 不 同 
的 程序 之 间 交 换 数 据 。 模 块 csv 让 你 能 够 轻松 地 读 写 CSV 文 件 ， 它 还 以 非常 透明 的 方式 处 
理 CSV 格 式 的 一 些 环 手 部 分 。 

口 datetime: 如 果 模 块 time 不 能 满足 你 的 时 间 跟 踪 需 求 ， 模 块 datetime 很 可 能 能 够 满足 。 
datetime 支 持 特 殊 的 日 期 和 时 间 对 象 , 并 让 你 能 够 以 各 种 方式 创建 和 合并 这 些 对 象 。 相 比 
于 模块 time， 模 块 datetime 的 接口 在 很 多 方面 都 更 加 直观 。 

口 difflib: 这 个 库 让 你 能 够 确定 两 个 序列 的 相似 程度 ， 还 让 你 能 够 从 很 多 序列 中 找 出 与 指 

定 序 列 最 为 相似 的 序列 。 例 如 ， 可 使 用 difflib 来 创建 简单 的 搜索 程序 。 

口 enum: 枚 举 类 型 是 一 种 只 有 少数 几 个 可 能 取 值 的 类 型 。 很 多 语言 都 内 置 了 这 样 的 类 型 ， 如 

果 你 在 使 用 Python 时 需要 这 样 的 类 型 ， 模 块 enum 可 提供 极 大 的 帮助 。 

口 functools: 这 个 模块 提供 的 功能 是 , 让 你 能 够 在 调用 函数 时 只 提供 部 分 参数 ( 部 分 求 值 ， 

partial evaluation ), 以 后 再 填充 其 他 的 参数 。 在 Python 3.0 中 , 这 个 模块 包含 filter 和 Teduce。 

口 hashlib: 使 用 这 个 模块 可 计算 字符 串 的 小 型 “签名 ”( 数 )。 计 算 两 个 不 同 字 符 串 的 签名 
时 ， 几 乎 可 以 肯定 得 到 的 两 个 签名 是 不 同 的 。 你 可 使 用 它 来 计算 大 型 文本 文件 的 签名 ， 
这 个 模块 在 加 密 和 安全 领域 有 很 多 用 途 "。 

D itertools: 包含 大 量 用 于 创建 和 合并 迭代 器 〈 或 其 他 可 和 迭代 对 象 ) 的 工具 ， 其 中 包括 可 
以 串 接 可 迭代 对 象 、 创 建 返 回 无 限 连续 整数 的 迭代 器 ( 类似 于 range, 但 没有 上 限 )、 反复 
遍历 可 迭代 对 象 以 及 具有 其 他 作用 的 函数 。 

口 logging: 使 用 print 语 句 来 确定 程序 中 发 生 的 情况 很 有 用。 要 避免 跟踪 时 出 现 大 量 调试 输 
出 ， 可 将 这 些 信息 写 入 日 志文 件 中 。 这 个 模块 提供 了 一 系列 标准 工具 ， 可 用 于 管理 一 个 
或 多 个 中 央 日 志 ， 它 还 支持 多 种 优先 级 不 同 的 日 志 消 息 。 

口 statistics: 计算 一 组 数 的 平均 值 并 不 那么 难 , 但 是 要 正确 地 获得 中 位 数 ， 以 确定 总 体 标 oo 
准 偏差 和 样本 标准 偏差 之 间 的 差别 ， 即 便 对 于 偶数 个 元 素来 说 ， 也 需要 费 点 心思 。 在 这 
种 情况 下 ， 不 要 手工 计算 ,而 应 使 用 模块 statistics! 

口 timeit、profile 和 trace: 模块 timeit ( 和 配套 的 命令 行 脚本 ) 是 一 个 测量 代码 段 执行 时 
间 的 工具 。 这 个 模块 暗藏 玄机 ， 度 量 性 能 时 你 可 能 应 该 使 用 它 而 不 是 模块 time。 模 块 
profile (和 配套 模块 pstats ) 可 用 于 对 代码 段 的 效率 进行 更 全 面 的 分 析 。 模 块 trace 可 帮 
助 你 进行 覆盖 率 分 析 ( 即 代码 的 哪些 部 分 执行 了 ， 哪 些 部 分 没有 执行 )， 这 在 编写 测试 代 
码 时 很 有 用 。 



































































































































10.4 小结 
本 章 介绍 了 模块 : 如 何 创建 模块 、 如 何 探索 模块 以 及 如 何 使 用 Python 标准 库 中 的 一 些 模块 。 








JD 另 请 参阅 模块 nd5 和 sha。 
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口 模块 : 模块 基本 上 是 一 个 子 程序 ， 主 要 作用 是 定义 函数 、 类 和 变量 等 。 模 块 包含 测试 代 
码 时 ， 应 将 这 些 代码 放 在 一 条 检查 name == '_ main “的 if 语 句 中 。 如 果 模 块 位 于 环境 变 
量 PYTHONPATH 包 含 的 目录 中 ， 就 可 直接 导入 它 ; 要 导入 存储 在 文件 foo.py 中 的 模块 ， 可 使 
用 语句 import foo。 

包 : 包 不 过 是 包含 其 他 模块 的 模块 。 包 是 使 用 包含 文件 _init .py 的 目录 实现 的 。 

口 探索 模块 : 在 交互 式 解释 带 中 导入 模块 后 ， 就 可 以 众多 不 同 的 方式 对 其 进行 探索 ， 其 中 
包括 使 用 dir、 查 看 变量 _all 以 及 使 用 函数 help。 文档 和 源 代码 也 是 获取 信息 和 洞 见 的 
极 佳 来 源 。 

口 标准 库 : Python 自 带 多 个 模块 ， 统 称 为 标准 库 。 本 章 介 绍 了 其 中 的 几 个 。 

加 sys: 这 个 模块 让 你 能 够 访问 多 个 与 Python 解释 顺 关 系 紧 密 的 变量 和 函数 。 

加 05: 这 个 模块 让 你 能 够 访问 多 个 与 操作 系统 关系 紧密 的 变量 和 函数 。 

加 fileinput: 这 个 模块 让 你 能 够 轻松 地 迭代 多 个 文件 或 流 的 内 容 行 。 

加 sets 、heapq 和 deque: 这 三 个 模块 提供 了 三 种 很 有 用 的 数据 结构 。 内 置 类 型 set 也 实现 
了 集合 。 

加 time: 这 个 模块 让 你 能 够 获取 当前 时 间 、 操 作 时 间 和 日 期 以 及 设置 它们 的 格式 。 

加 Tandom: 这 个 模块 包含 用 于 生成 随机 数 ， 从 序列 中 随机 地 选择 元 素 , 以 及 打 乱 列表 中 元 
素 的 函数 。 

加 shelve: 这 个 模块 用 于 创建 永久 性 映射 ， 其 内 容 存储 在 使 用 给 定 文件 名 的 数据 库 中 。 

加 Te: 文 持 正则 表达 式 的 模块 。 

如 果 你 想 更 深入 地 学 习 模 块 ， 再 次 建议 浏览 “Python 库 参考 手册 ”， 它 读 起 来 真 的 很 有 趣 。 


10.4.1 本 章 介 绍 的 新 函数 


函数 描述 

dir(ob]) 司 一 个 按 字母 顺序 排列 的 属性 名 列表 
help([obj]) 殿 交 互 式 帮助 或 有 关 特 定 对 象 的 帮助 信息 
imp. reload(module) 可 已 导入 的 模块 的 重 载 版 本 
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10.4.2 “预告 


只 要 掌握 了 本 章 介绍 的 几 个 概念 ， 你 的 Python 技能 就 将 有 极 大 进步 。 和 凭借 标 准 库 ，Python 从 功 
能 强大 变 得 极度 强大 .有 了 到 目前 为 止 学 到 的 知识 后 ,你 就 能 通过 编写 程序 来 解决 各 种 各 样 的 问题 。 


在 下 一 章 ， 你 将 更 深入 地 学 习 如 何 使 用 Python 来 与 文件 和 网 络 交互 ， 从 而 能 够 解决 更 多 的 问题 。 





























文 件 








到 目前 为 止 , 我 们 使 用 的 主要 是 解释 器 自 带 的 数据 结构 ,程序 与 外 部 的 交互 很 少 , 且 都 是 通 
过 input 和 print 进 行 的 。 本 章 将 更 进一步 ， 让 程序 能 够 与 更 大 的 外 部 世界 交互 文件 和 流 。 本 章 
介绍 的 函数 和 对 象 让 你 能 够 永久 存储 数据 以 及 处 理 来 自 其 他 程序 的 数据 。 


11.1 打开 文件 


要 打开 文件 ， 可 使 用 函数 open， 它 位 于 自动 导 和 人 的 模块 io 中 。 函 数 open 将 文件 名 作为 唯一 必 
不 可 少 的 参数 ， 并 返回 一 个 文件 对 象 。 如 果 当 前 目录 中 有 一 个 名 为 somefile.txt 的 文本 文件 〈 可 能 
是 使 用 文本 编辑 器 创建 的 )， 则 可 像 下 面 这 样 打开 它 : 

>>> f = open('somefile.txt') 

如 果 文 件 位 于 其 他 地 方 ， 可 指定 完整 的 路 径 。 如 果 指 定 的 文件 不 存在 , 将 看 到 类 似 于 下 面 的 
异常 : 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
FileNotFoundError: [Errno 2] No such file or directory: 'somefile.txt' 


如 果 要 通过 写 和 人 文本 来 创建 文件 ,这 种 调用 函数 open 的 方式 并 不 能 满足 需求 。 为 解决 这 种 问 
题 ， 可 使 用 函数 open 的 第 二 个 参数 。 


文件 模式 


调用 函数 open 时 ， 如 果 只 指定 文件 名 ,将 获得 一 个 可 读 取 的 文件 对 象 。 如 果 要 写 入 文件 ， 必 
须 通 过 指定 模式 来 显 式 地 指出 这 一 点 。 函 数 open 的 参数 mode 的 可 能 取 值 和 有 多 个 ， 表 11-1 对 此 进行 
了 总 结 。 
























































表 11-1 ”函数 open 的 参数 mode 的 最 常见 取 值 
值 描 述 
并 读 取 模式 〈 默 认 值 ) 
了 写 和 模式 
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( 续 ) 
值 描述 
x 独占 写 入 模式 
a 附加 模式 
b 二 进 制 模式 〈 与 其 他 模式 结合 使 用 ) 
文本 模式 ( 默认 值 ， 与 其 他 模式 结合 使 用 ) 
a 读 写 模式 ( 与 其 他 模式 结合 使 用 ) 























显 式 地 指定 读 取 模 式 的 效果 与 根本 不 指定 模式 相同 。 写 和 人 模式 让 你 能 够 写 人 文件 , 并 在 文件 
不 存在 时 创建 它 。 独 占 写 人 模式 更 进一步 , 在 文件 已 存在 时 引发 FileExistsError 异 常 。 在 写 入 模 
式 下 打开 文件 时 ， 既 有 内 容 将 被 删除 (截断 )， 并 从 文件 开头 处 开始 写 入 ; 如 果 要 在 既 有 文件 未 
尾 继续 写 入 ， 可 使 用 附加 模式 。 

'+ "可 与 其 他 任何 模式 结合 起 来 使 用 ， 表 示 既 可 读 取 也 可 写 人 。 例 如 ， 要 打开 一 个 文本 文件 
进行 读 写 ， 可 使 用 'r+'。( 你 可 能 还 想 结合 使 用 seek， 详 情 请 参阅 本 章 后 面 的 旁 注 “ 随 机 存 取 ”。 ) 
请 注意 ，'T+ 和 "w+ ' 之 间 有 个 重要 差别 : 后 者 截断 文件 ， 而 前 者 不 会 这 样 做 。 
默认 模式 为 "Tt' ， 这 意味 着 将 把 文件 视 为 经 过 编码 的 Unicode 文 本 ， 因 此 将 自动 执行 解码 和 
编码 ， 且 默认 使 用 UTF-8 编 码 。 要 指定 其 他 编码 和 Unicode 错 误 处 理 策 略 ， 可 使 用 关键 字 参 数 
encoding 和 errors。( 有 关 Unicode 的 详细 信息 ， 请 参阅 第 1 章 。) 这 还 将 自动 转换 换行 字符 。 默 认 
情况 下 , 行 以 '\n' 结 尾 。 读 取 时 将 自动 替换 其 他 行 尾 字符 ('\r' 或 '\r\n' ); 写 入 时 将 '\n' 蔡 换 为 
系统 的 默认 行 尾 字符 ( os.1inesep )。 

通常 , Python 使 用 通用 换行 模式 。 在 这 种 模式 下 ,后 面 将 讨论 的 readlines 等 方法 能 够 识别 所 
有 合法 的 换行 符 ('\n' 、'\r' 和 '\r\n' )。 如 果 要 使 用 这 种 模式 , 同时 禁止 自动 转换 ,可 将 关键 字 
参数 newline 设 置 为 空 字符 串 ， 如 open(name，newline='')。 如 果 要 指定 只 将 '\r' 或 '\r\n' 视 为 合 
法 的 行 尾 字符 ， 可 将 参数 newline 设 置 为 相应 的 行 尾 字符 。 这 样 ， 读 取 时 不 会 对 行 尾 字符 进行 转 
换 ， 但 写 入 时 将 把 '\n' 替换 为 指定 的 行 尾 字符 。 

如 果 文 件 包 含 非 文本 的 二 进 制 数据 , 如 声音 剪辑 片段 或 图 像 , 你 肯定 不 希望 执行 上 述 自动 转 
换 。 为 此 ， 只 需 使 用 二 进 制 模式 ( 如 'rb' ) 来 禁用 与 文本 相关 的 功能 。 

还 有 几 个 更 为 高 级 的 可 选 参数 ,用 于 控制 缓冲 以 及 更 直接 地 处 理 文件 描述 符 。 要 获取 有 关 这 

些 参 数 的 详细 信息 ， 请 参阅 Python 文 档 或 在 交互 式 解 释 器 中 运行 help(open)。 


11.2 ”文件 的 基本 方法 


知道 如 何 打开 文件 后 , 下 一 步 是 使 用 它们 来 做 些 有 用 的 事情 。 本 节 介 绍 文件 对 象 的 一 些 基本 
方法 以 及 其 他 类 似 于 文件 的 对 象 (有 时 称 为 流 )。 类 似 于 文件 的 对 象 支持 文件 对 象 的 一 些 方法 ， 
如 支持 read 或 write， 或 者 两 者 都 支持 。urlopen (人 参见 第 14 章 ) 返回 的 对 象 就 是 典型 的 类 似 于 文 
件 的 对 象 ， 它 们 支持 方法 read 和 readline， 但 不 支持 方法 write 和 isatty。 
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在 第 10 章 讨论 模块 sys 的 一 节 中 ， 提 到 了 三 个 标准 流 。 这 些 流 都 是 类 似 于 文件 的 对 象 ， 你 
可 将 学 到 的 有 关 文 件 的 知识 用 于 它们 。 

一 个 标准 数据 输入 源 是 sys.stdin。 当 程序 从 标准 输入 读 取 时 ， 你 可 通过 输入 来 提供 文 
本 ， 也 可 使 用 管道 将 标准 输入 关联 到 其 他 程序 的 标准 输出 ， 这 将 在 11.2.2 节 介绍 。 

你 提供 给 print 的 文本 出 现在 sys.stdout 中 ， 向 input 提 供 的 提示 信息 也 出 现在 这 里 。 写 
入 到 sys.stdout 的 数据 通常 出 现在 屏幕 上 ， 但 可 使 用 管道 将 其 重 定向 到 另 一 个 程序 的 标准 
输入 。 

错误 消息 (如 栈 跟 踪 ) 被 写 入 到 sys.stderr， 但 与 写 入 到 sys.stdout 的 内 容 一 样 ， 可 对 其 
进行 重 定向 。 





11.2.1 读 取 和 写 入 


文件 最 重要 的 功能 是 提供 和 接收 数据 。 如 果 有 一 个 名 为 f 的 类 似 于 文件 的 对 象 ， 可 使 用 
f.wTite 来 写 人 数据 ,还 可 使 用 f.read 来 读 取 数 据 。 与 Python 的 其 他 大 多 数 功能 一 样 ,在 哪些 东西 
可 用 作 数 据 方面 ， 也 存在 一 定 的 灵活 性 ,但 在 文本 和 二 进 制 模式 下 ， 基 本 上 分 别 将 str 和 bytes 类 
用 作 数 据 。 

每 当 调 用 f.write(string) 时 ,你 提供 的 字符 串 都 将 写 入 到 文件 中 既 有 内 容 的 后 面 。 


>>> f = open('somefile.txt', 'w') 
>>> f.write('Hello, ') 

7 

>>> f.write('World!') 

6 

>>> f.close() 


请 注意 ， 使 用 完 文件 后 ， 我 调用 了 方法 close， 这 将 在 11.2.4 节 详细 介绍 。 读 取 也 一 样 简单 ， 

只 需 告 诉 流 你 要 读 取 多 少 个 字符 ( 在 二 进 制 模 式 下 是 多 少 字 市 )， 如 下 例 所 示 : on 
>>> f = open('somefile.txt', 'r') 

>>> f.read(4) 

'Hell' 

>>> f.read() 

"0，Wor1dl 


首先 ， 指 定 了 要 读 取 多 少 (4 ) 个 字符 。 接 下 来 ， 读 取 了 文件 中 余下 的 全 部 内 容 ( 不 指定 要 
读 取 多 少 个 字符 )。 请 注意 ， 调 用 open 时 ,原本 可 以 不 指定 模式 ， 因 为 其 默认 值 就 是 'r'。 


11.2.2 ”使 用 管道 重 定 向 输出 
在 bash 等 shell 中 ， 可 依次 输入 多 个 命令 ， 并 使 用 管道 将 它们 链接 起 来 ， 如 下 所 示 : 


$ cat somefile.txt | python somescript.py | sort 




















































































































216 第 11 章 文件 





这 条 管道 线 包含 三 个 命令 。 
D cat somefile.txt: 将 文件 omefile.txt 的 内 容 写 人 到 标准 输出 (sys. stdout )。 
口 python somescript.py: 执行 Python 脚 本 somescript。 这 个 脚本 从 其 标准 输入 中 读 取 ， 并 
将 结果 写 人 到 标准 输出 。 
D sort : 读 取 标准 输入 (sys.stdin ) 中 的 所 有 文本 ， 将 各 行 按 字母 顺序 排序 ， 并 将 结果 写 

人 到 标准 输出 。 
日 这 些 管 道 字 符 ( | ) 有 何 作 用 呢 ? 脚本 somescript,py 的 作用 是 什么 呢 ? 管道 将 一 个 命令 的 
标准 输出 链接 到 下 一 个 命令 的 标准 输入 。 很 聪明 吧 ? 因此 可 以 认为 ，somescript.py 从 其 
sys.stdin 中 读 取 数据 ( 这 些 数据 是 somefile.txt 写 入 的 )， 并 将 结果 写作 到 其 sys. stdout ( sort 
将 从 这 里 获取 数据 )。 

代码 清单 11-1 是 一 个 使 用 sys.stdin 的 简单 脚本 ( somescript.py )。 代 码 清单 11-2 显 示 了 文件 

somefile.txt 的 内 容 。 


代码 清单 11-1 计算 sys.stdin 中 包含 多 少 个 单词 的 简单 脚本 


# somescript.py 

import sys 

text = sys.stdin.read() 

words = text.split() 

wordcount = len(words) 
print('Wordcount:', wordcount) 
























































代码 清单 11-2 ”一 个 内 容 碗 次 的 文本 文件 


Your mother was a hamster and your 
father smelled of elderberries. 





cat somefile.txt | python somescript.py 的 结果 如 下 : 


Wordcount: 11 


随机 存 取 


在 本 章 中 ,我 将 文件 都 视 为 流 , 只 能 按 顺 序 从 头 到 尾 读 取 。 实际 上 , 可 在 文件 中 移动 ， 
只 访问 感 兴趣 的 部 分 ( 称 为 随机 存 取 )。 为 此 ,可 使 用 文件 对 象 的 两 个 方法 : seek 和 tell。 

方法 seek(offset[，whence]) 将 当前 位 置 ( 执行 读 取 或 写 入 的 位 置 ) 移 到 offset 和 
whence 指定 的 地 方 。 参数 offset 指定 了 字 节 (字符 ) 数 , 而 参数 whence 默认 为 io.SEEK _SET 
(0)， 这 意味 着 偏 移 量 是 相对 于 文件 开头 的 ( 偏 移 量 不 能 为 负数 )。 参 数 whence 还 可 设置 
为 io.SEEK_CUR (1) 或 io.SEEK_END (2 )， 其 中 前 者 表示 相对 于 当前 位 置 进行 移动 ( 偏 移 量 
可 以 为 负 )， 而 后 者 表示 相对 于 文件 末尾 进行 移动 。 请 看 下 面 的 示例 : 


>>> f = open(r'C:\text\somefile.txt', 'w') 
>>> f.write('01234567890123456789') 

20 

>>> f.seek(5) 
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5 

>>> f.write('Hello, World!') 

13 

>>> f.close() 

>>> f = open(r'C:\text\somefile.txt') 
>>> f.read() 

'01234Hello,World!89" 


方法 tell() 返 回 当 前 位 于 文件 的 什么 位 置 ， 如 下 例 所 示 : 


>>> f = open(r'C:\text\somefile.txt') 
>>> f.read(3) 

'012" 

>>> f.read(2) 

‘341 

>>> f.tell() 

5 


11.2.3” 读 取 和 写 入 行 


实际 上 ， 本章 前 面 所 做 的 都 不 太 实 用 。 与 其 逐个 读 取 流 中 的 字符 ,不 如 成 行 地 读 取 。 要 读 取 
一 行 ( 从 当前 位 置 到 下 一 个 分 行 符 的 文本 )， 可 使 用 方法 readline。 调 用 这 个 方法 时 ， 可 不 提供 
任何 参数 (在 这 种 情况 下 ， 将 读 取 一 行 并 返回 它 ) 也 可 提供 一 个 非 负 整数 ， 指 定 readline 最 多 
可 读 取 多 少 个 字符 。 因 此 ， 如 果 some file. readline() 返 回 的 是 'Hello，World!l\n' ， 那 么 
some file.readline(5) 返 回 的 将 是 'Hello' 。 要 读 取 文件 中 的 所 有 行 ， 并 以 列表 的 方式 返回 它们 ， 
可 使 用 方法 readlines。 

方法 writelines 与 Teadlines 相 反 : 接受 一 个 字符 串 列表 (实际 上 , 可 以 是 任何 序列 或 可 迭代 
对 象 )， 并 将 这 些 字符 串 都 写 入 到 文件 (或 流 ) 中 。 请 注意 ， 写 人 时 不 会 添加 换行 符 ， 因 此 你 必 
须 自 行 添 如。 另外， 没有 方法 writeline， 因 为 可 以 使 用 write。 


11.2.4 ”关闭 文件 


别 忘 了 调用 方法 close 将 文件 关闭 。 通 常 ， 程 序 退 出 时 将 自动 关闭 文件 对 象 ( 也 可 能 在 退出 
程序 前 这 样 做 )， 因 此 是 否 将 读 取 的 文件 关闭 并 不 那么 重要 。 人 然而， 关闭 文件 没有 坏人 处， 在 有 些 
操作 系统 和 设置 中 , 还 可 避免 无 意义 地 锁定 文件 以 防 修改 。 另 外 , 这 样 做 还 可 避免 用 完 系 统 可 能 
指定 的 文件 打开 配额 。 

对 于 写 入 过 的 文件 , 一 定 要 将 其 关闭 ， 因 为 Python 可 能 缓冲 你 写 入 的 数据 ( 将 数据 暂时 存储 
在 某 个 地 方 ， 以 提高 效率 )。 因 此 如 果 程 序 因 某 种 原因 前 溃 ， 数 据 可 能 根本 不 会 写 入 到 文件 中 。 
安全 的 做 法 是 ， 使 用 完 文 件 后 就 将 其 关闭 。 如 果 要 重 置 缓冲 ， 证 所 做 的 修改 反映 到 磁盘 文件 中 ， 
但 又 不 想 关 闭 文件 , 可 使 用 方法 flush。 然而 , 需要 注意 的 是 , 根据 使 用 的 操作 系统 和 设置 , flush 
可 能 出 于 锁定 考虑 而 禁止 其 他 正在 运行 的 程序 访问 这 个 文件 。 只 要 能 够 方便 地 关闭 文件 , 就 应 将 
其 关闭 。 
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要 确保 文件 得 以 关闭 ， 可 使 用 一 条 try/finally 语 句 ， 并 在 finally 子 句 中 调用 close。 


# 在 这 里 打开 文件 
try: 

# 将 数据 写 入 到 文件 中 
finally: 

file.close() 


实际 上 ， 有 一 条 专门 为 此 设计 的 语句 ， 那 就 是 with 语句 。 
with open("somefile.txt") as somefile: 
do_something(somefile) 


with 语句 让 你 能 够 打开 文件 并 将 其 赋 给 一 个 变量 (这 里 是 somefile ), 在 语句 体 中 , 你 将 数据 
写 入 文件 (还 可 能 做 其 他 事情 )。 到 达 该 语句 末尾 时 ,将 自动 关闭 文件 ， 即 便 出 现 异 常 亦 如 此 。 


























上 下 文 管理 器 


with 语 名 实际 上 是 一 个 非常 通用 的 结构 ， 允 许 你 使 用 所 谓 的 上 下 文 管理 器 。 上 下 文 管理 
器 是 支持 两 个 方法 的 对 象 : enter 和 exit 。 

方法 _enter 不 接受 任何 参数 ， 在 进入 with 语 句 时 被 调用 ， 其 返回 值 被 赋 给 关键 字 as 后 
面 的 变量 。 

方法 _exit 接受 三 个 参数 : 异常 类 型 、 异 常 对 象 和 异常 跟踪 。 它 在 离开 方法 时 被 调用 
(通过 前 述 参 数 将 引发 的 异常 提供 给 它 ) 。 如 果 ”exit 返回 False， 将 抑制 所 有 的 异常 。 

文件 也 可 用 作 上 下 文 管理 器 。 它 们 的 方法 _enter 返回 文件 对 象 本 身 ， 而 方法 _ exit 
关闭 文件 。 有 关 这 项 极其 复杂 而 强大 的 功能 的 详细 信息 ， 请 参阅 “Python 参考 手册 ”中 对 上 
下 文 管理 器 的 描述 ， 另 请 参阅 “Python 库 参考 手册 ”中 介绍 上 下 文 管理 器 类 型 和 contextlib 
的 部 分 。 








11.2.5 ”使 用 文件 的 基本 方法 
假设 文件 somefile txt 包含 代 码 清单 11-3 所 示 的 文本 ， 可 对 其 执行 哪些 操作 呢 ? 
代码 清单 11-3 一 个 简单 的 文本 文件 


Welcome to this file 
There is nothing here except 
This stupid haiku 


我 们 来 试 试 前 面 介绍 过 的 方法 ， 首 先是 read(n)。 
>>> f = open(r'C:\text\somefile.txt') 

>>> f.read(7) 

“Welcome 

>>> f.read(4) 

vt 

>>> f.close() 
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接 下 来 是 read(): 


>>> f = open(r'C:\text\somefile.txt') 
>>> print(f.read()) 

Welcome to this file 

There is nothing here except 

This stupid haiku 

>>> f.close() 


下 面 是 readline(): 


>>> f = open(r'C:\text\somefile.txt') 
>>> for i in range(3): 
print(str(i) + ': ' + f.readline(), end="') 
0: Welcome to this file 
1: There is nothing here except 
2: This stupid haiku 
>>> f.closel() 
































最 后 是 readlines(): 


>>> import pprint 

>>> pprint.pprint(open(r'C:\text\somefile.txt').readlines()) 
['Welcome to this file\n', 

‘There is nothing here except\n’', 

"This stupid haiku'] 


请 注意 ， 这 里 我 利用 了 文件 对 象 将 被 自动 关闭 这 一 事实 。 下 面 来 尝试 写 人 ， 首 先是 


write(string)。 




















>>> f = open(r'C:\text\somefile.txt', 'w') 
>>> f.write('this\nis no\nhaiku') 

13: 

>>> f.close() 


运行 上 述 代 码 后 ， 这 个 文件 包含 的 文本 如 代码 清单 11-4 所 示 。 
代码 清单 11-4 ”修改 后 的 文本 文件 




















this 

is no 

haiku 

最 后 是 writelines(1ist) : 

>>> f = open(r'C:\text\somefile.txt') 
>>> lines = f.readlines() 

>>> f.close() 

>>> lines[1] = "isn't a\n" 


>>> f = open(r'C:\text\somefile.txt', 'w') 
>>> f.writelines(lines) 
>>> f.close() 


运行 这 些 代 码 后 ， 这 个 文件 包含 的 文本 如 代码 清单 11-5 所 示 。 
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代码 清单 11-5 ”再 次 修改 后 的 文本 文件 
this 
isn't a 
haiku 


11.3 ”和 迭代 文件 内 容 


至 此 , 你 见识 了 文件 对 象 提供 的 一 些 方法 , 还 学 习 了 如 何 获 得 文件 对 象 。 一 种 常见 的 文件 操 
作 是 迭代 其 内 容 , 并 在 迭代 过 程 中 反复 采取 某 种 措施 。 这 样 做 的 方法 有 很 多 ,你 完全 可 以 找到 自 
己 喜 欢 的 方法 并 坚持 使 用 。 然 而 ,由 于 其 他 人 可 能 使 用 不 同 的 方法 ,为 了 能 够 理解 他 们 编写 的 程 
序 ， 你 应 熟悉 所 有 的 基本 方法 。 

在 本 节 的 所 有 示例 中 ， 我 都 将 使 用 一 个 名 为 process 的 虚构 函数 来 表示 对 每 个 字符 或 行 所 做 
的 处 理 ， 你 可 以 用 自己 的 喜欢 的 方式 实现 这 个 函数 。 下 面 是 一 个 简单 的 示例 : 


def process(string): 
print('Processing:', string) 


更 有 用 的 实现 包括 将 数据 存储 在 数据 结构 中 、 计 算 总 和 、 使 用 模块 ze 进行 模式 替换 以 及 添加 
性 5 
另外 ， 要 尝试 运行 这 些 示 例 ， 应 将 变量 filename 设 置 为 实际 使 用 的 文件 的 名 称 。 





















































11.3.1 每 次 一 个 字符 (或 字 节 ) 


一 种 最 简单 ( 也 可 能 是 最 不 常见 ) 的 文件 内 容 迭 代 方 式 是 ， 在 while 循 环 中 使 用 方法 read。 
例如 ,你 可 能 想 遍 历 文件 中 的 每 个 字符 ( 在 二 进 制 模 式 下 是 每 个 字 节 )， 为 此 可 像 代码 清单 11-6 
所 示 的 那样 做 。 如 果 你 每 次 读 取 多 个 字符 ( 字 节 )， 可 指定 要 读 取 的 字符 ( 字 节 ) 数 。 


代码 清单 11-6 ”使 用 read 遍 历 字符 


with open(filename) as f: 
char = f.read(1) 
while char: 

process(char) 
char = f.read(1) 


这 个 程序 之 所 以 可 行 , 是 因为 到 达 文 件 末 尾 时 , 方法 read 将 返回 一 个 空 字 符 串 , 但 在 此 之 前 ， 
返回 的 字符 串 都 只 包含 一 个 字符 ( 对 应 于 布尔 值 True )。 只 要 char 为 True， 你 就 知道 还 没 结 

如 你 所 见 ， 赋 值 语句 char = f.read(1) 出 现 了 两 次 ， 而 代码 重复 通常 被 视 为 坏事 。( 还 记得 懒 
惰 是 一 种 美德 吗 ? ) 为 避免 这 种 重复 ， 可 使 用 第 5 章 介绍 的 while True/preak 技 巧 。 修 改 后 的 代码 
如 代码 清单 11-7 所 示 。 


代码 清单 11-7 ”以 不 同 的 方式 编写 循环 


with open(filename) as f: 
while True: 
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char = f.read(1) 
if not char: break 
process(char) 


第 5 章 说 过 ， 不 应 过 多 地 使 用 break 语 句 ， 因 为 这 会 导致 代码 更 难 理解 。 尽 管 如 此 ， 代 码 清单 
11-7 通 常 胜 过 代码 清单 11-6， 正 是 因为 它 避 免 了 重复 的 代码 。 








11.3.2 ”每 次 一 行 


处 理 文本 文件 时 ， 你 通常 想 做 的 是 迭代 其 中 的 行 ， 而 不 是 每 个 字符 。 通 过 使 用 11.2.1 节 介绍 
的 方法 readline， 可 像 和 迭代 字符 一 样 轻松 地 和 欠 代 行 ， 如 代码 清单 11-8 所 示 。 


代码 清单 11-8 在 while 循 环 中 使 用 readline 


with open(filename) as f: 
while True: 
line = f.readline() 
if not line: break 
process(line) 

















11.3.3” 读 取 所 有 内 容 


如 果 文 件 不 太 大 ， 可 一 次 读 取 整个 文件 ; 为 此 ， 可 使 用 方法 read 并 不 提供 任何 参数 ( 将 整个 
文件 读 取 到 一 个 字符 串 中 )， 也 可 使 用 方法 readlines ( 将 文件 读 取 到 一 个 字符 串 列 表 中 ， 其 中 每 
个 字符 串 都 是 一 行 )。 代 码 清单 11-9 和 11-10 表 明 ， 通 过 这 样 的 方式 读 取 文 件 ， 可 轻松 地 友 代 字符 
和 行 。 请 注意 ， 除 进行 迭代 外 , 像 这 样 将 文件 内 容 读 取 到 字符 串 或 列表 中 也 对 完成 其 他 任务 很 有 
帮助 。 例 如 ， 可 对 字符 串 应 用 正则 表达 式 ， 还 可 将 列表 存储 到 某 种 数据 结构 中 供 以 后 使 用 。 


代码 清单 11-9 ”使 用 read 和 迭代 字符 


with open(filename) as f: 
for char in f.read(): 
process(char) 


























代码 清单 11-10 使 用 readlines 从 代 行 


with open(filename) as f: 
for line in f.readlines(): 
process(line) 


11.3.4 使 用 fileinput 实现 延迟 行 迭代 


有 时 候 需要 迭代 大 型 文件 中 的 行 ， 此 时 使 用 readlines 将 占用 太 多 内 存 。 当 然 ， 你 可 转 而 
结合 使 用 while 循 环 和 readline， 但 在 Python 中 ， 在 可 能 的 情况 下 ， 应 首选 for 循 环 ， 而 这 里 就 
属于 这 种 情况 。 你 可 使 用 一 种 名 为 延迟 行 只 代 的 方法 一 一 说 它 延 迟 是 因为 它 只 读 取 实 际 需要 的 
文本 部 分 。 
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fileinput 在 第 10 章 介绍 过 ， 代 码 清单 11-11 演 示 了 如 何 使 用 它 。 请 注意 ， 模 块 fileinput 会 负 
责 打 开 文 件 ， 你 只 需 给 它 提 供 一 个 文件 名 即 可 。 
代码 清单 11-11 使 用 fileinput 迁 代行 

import fileinput 


for line in fileinput.input(filename): 
process(line) 





11.3.5 ”文件 迭代 器 


该 来 看 看 最 酷 ( 也 是 最 常见 ) 的 方法 了 。 文 件 实际 上 是 可 迭代 的 ， 这 意味 着 可 在 for 循 环 中 
直接 使 用 它们 来 近代 行 ， 如 代码 清单 11-12 所 示 。 


代码 清单 11-12 ”迭代 文件 


with open(filename) as f: 
for line in f: 
process(line) 


在 这 些 迭 代 示 例 中 , 我 都 将 文件 用 作 了 上 下 文 管理 器 ， 以 确保 文件 得 以 关闭 。 虽然 这 通常 是 
个 不 错 的 主意 , 但 只 要 不 写 入 文件 , 就 并 非 一 定 要 这 样 做 。 如 果 你 愿意 让 Python 去 负责 关闭 文件 ， 
可 进一步 简化 这 个 示例 ， 如 代码 清单 11-13 所 示 。 在 这 里 ， 我 没有 将 打开 的 文件 赋 给 变量 ( 如 其 
他 示例 中 使 用 的 变量 f )， 因 此 没 法 显 式 地 关闭 它 。 


代码 清单 11-13 ”在 不 将 文件 对 象 赋 给 变量 的 情况 下 迭代 文件 


for line in open(filename): 
process(line) 


请 注意 ， 与 其 他 文件 一 样 ，sys.stdin 也 是 可 迭代 的 ， 因 此 要 迭代 标准 输入 中 的 所 有 行 ， 可 
像 下 面 这 样 做 : 


import sys 
for line in sys.stdin: 
process(line) 


另外 ， 可 对 迭代 吉 做 的 事情 基本 上 都 可 对 文件 做 ， 如 (使 用 list(open(filename)) ) 将 其 转 
换 为 字符 串 列表 ， 其 效果 与 使 用 readlines 相 同 。 


>>> f = open('somefile.txt', 'w') 

>>> print('First', 'line', file=f) 

>>> print('Second', 'line', file=f) 

>>> print('Third', ‘and final', 'line', file=f) 
>>> f.close() 

>>> lines = list(open('somefile.txt')) 

>>> lines 
['First line\n', 'Second line\n', 'Third and final line\n'] 
>>> first, second, third = open('somefile.txt') 

>>> first 
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“First line\n' 

>>> second 

"Second line\n’ 

>>> third 

‘Third and final line\n' 


在 这 个 示例 中 ， 需 要 注意 如 下 几 点 。 

口 使 用 了 print 来 写 信 文件， 这 将 自动 在 提供 的 字符 串 后 面 添加 换行 符 。 

口 对 打开 的 文件 进行 序列 解 包 ， 从 而 将 每 行 存储 到 不 同 的 变量 中 。( 这 种 做 法 不 常见 ， 因 为 

通常 不 知道 文件 包含 多 少 行 ， 但 这 演示 了 文件 对 象 是 可 迭代 的 。) 

口 写 入 文件 后 将 其 关闭 ， 以 确保 数据 得 以 写 人 磁盘 。( 如 你 所 见 ， 读 取 文 件 后 并 没有 将 其 关 
闭 。 这 可 能 有 点 粗糙 ， 但 并 非 致命 的 。) 
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本 章 介 绍 了 如 何 通过 文件 和 类 似 于 文件 的 对 象 与 外 部 世界 交互 ， 这 是 Python 中 最 重要 的 IO 
方法 之 一 。 下 面 列 出 了 本 章 的 一 些 重 点 。 

口 类 似 于 文件 的 对 象 : 类 似 于 文件 的 对 象 是 支持 read 和 readline ( 可 能 还 有 write 和 

writelines ) 等 方法 的 对 象 。 

口 打开 和 关闭 文件 : 要 打开 文件 , 可 使 用 函数 open， 并 向 它 提供 一 个 文件 名 。 如 果 要 确保 即 

便 发 生 错 误 时 文件 也 将 被 关闭 ， 可 使 用 with 语 句 。 

口 模式 和 文件 类 型 : 打开 文件 时 ， 还 可 指定 模式 ， 如 'r'( 读 取 模式 ) 或 'w' ( 写 人 模式 )。 
通过 在 模式 后 面 加 上 'b' ， 可 将 文件 作为 二 进 制 文件 打开 ， 并 关闭 Unicode 编 码 和 换行 符 
替换 。 

口 标准 流 : 三 个 标准 流 ( 模块 sys 中 的 stdin、stdout 和 stderr ) 都 是 类 似 于 文件 的 对 象 ， 它 

们 实现 了 UNIX 标 准 IO 机 制 (Windows 也 提供 了 这 种 机 制 )。 

口 读 取 和 写 入 : 要 从 文件 或 类 似 于 文件 的 对 象 中 读 取 ， 可 使 用 方法 read; 要 执行 写 人 操作 ， 

可 使 用 方法 write。 

口 读 取 和 写 入 行 : 要 从 文件 中 读 取 行 , 可 使 用 readline 和 readlines; 要 写 人 行 ,可 使 用 write- 

lines。 

口 迭代 文件 内 容 : 迭代 文件 内 容 的 方法 很 多 ， 其 中 最 常见 的 是 迭代 文本 文件 中 的 行 ， 这 可 

通过 简单 地 对 文件 本 身 进行 迭代 来 做 到 。 还 有 其 他 与 较 旧 Python 版 本 兼容 的 方法 , 如 使 用 


readlines。 


11.4.1 ”本章 介绍 的 新 函数 


函数 描述 
open(name,...) 打开 文件 并 返回 一 个 文件 对 象 
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11.4.2 ”预告 


至 此 , 你 知道 了 如 何 通过 文件 与 外 部 世界 交互 , 但 如 何 与 用 户 交 互 呢 ?到 目前 为 止 , 我 们 都 
是 使 用 input 和 print 来 与 用 户 交互 的 ， 因 此 除非 用 户 将 数据 写 人 程序 能 够 读 取 的 文件 ， 和 否则 你 真 
的 没有 其 他 可 用 于 创建 用 户 界面 的 工具 。 为 了 改变 这 种 情况 ,下 一 章 将 介绍 图 形 用 户 界 面 , 包括 
窗口 、 按 钮 等 。 



























































本 章 篇 幅 极 短 ， 将 介绍 有 关 为 Python 程序 创建 图 形 用 户 界 面 (GUI ) 的 基本 知识 。 你 知道 ， 
GUI 就 是 包含 按钮 .文本 框 等 控件 的 窗口 .Tkinter 是 事实 上 的 Python 标准 GUI 工具 包 ,包含 在 Python 
标准 安装 中 。 然 而 ， 还 有 其 他 多 个 工具 包 。 这 有 优点 〈 极 大 的 选择 空间 )， 也 有 缺点 (除非 其 他 
人 安装 了 你 使 用 的 GUI 工具 包 , 否则 无 法 运行 你 编写 的 程序 ) 所幸 各 种 Python GUI 工具 包 并 非 互 
斥 的 ， 因 此 想 安 装 多 少 个 不 同 的 GUI 工具 包 都 可 以 。 

本 章 简要 地 介绍 Tkinter 的 用 法 , 第 28 章 就 是 建立 在 这 些 知 识 的 基础 之 上 的 。Tkinter 易 于 使 用 ， 



































但 要 使 用 其 所 有 功能 ， 需 要 学 的 东西 还 有 很 多 。 这 里 只 是 晴 
更 多 的 细节 ， 请 参阅 标准 库 参 考 手册 中 介绍 













































































履 点 水 ， 让 你 能 够 快速 上 手 。 要 获悉 
图 形 用 户 界 面 的 部 分 ， 其 中 有 Tkinter 文 档 ， 还 有 到 一 








些 网 站 的 链接 ， 而 这 些 网 站 提供 了 有 关 其 他 GUI 包 的 详细 信息 和 使 用 建议 。 


12.1 创建 GUI 示例 应 用 程序 


为 演示 Tkinter 的 用 法 ， 我 将 介绍 如 何 创建 一 个 简单 的 GUI 应 用 程序 。 你 的 任务 是 编写 一 个 简 
单 的 程序 ,让 用 户 能 够 编辑 文本 文件 。 这 里 并 非 要 开发 功能 齐备 的 文本 编辑 器 ， 而 只 想 提供 基本 
的 功能 。 毕 竟 这 里 的 目标 是 演示 基本 的 Python GUI 编程 机 制 。 

















这 个 微型 文本 编辑 器 的 需求 如 下 。 

口 让 用 户 能 够 打开 指定 的 文本 文件 。 
口 让 用 户 能 够 编辑 文本 文件 。 

口 让 用 户 能 够 保存 文本 文件 。 

口 让 用 户 能 够 退出 。 























编写 GUI 程序 时 ， 绘 制 其 用 户 界 面 草 
辑 器 需求 的 简单 布局 。 











图 通常 很 有 帮助 。 


























图 12-1 显 示 了 一 个 可 满足 前 述 文本 编 
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< 在 这 里 输入 文件 





任 这 里 编辑 文本 > 

















图 12-1 文本 编辑 器 用 户 界 面 草 图 




















这 些 界 面 元 素 的 用 法 如 下 。 
D 在 按钮 左边 的 文本 框 中 输入 文件 名 ， 再 单 击 Open 按 钮 打开 这 个 文件 ， 它 包含 的 文本 将 出 
现在 底部 的 文本 框 中 。 

口 在 底部 的 大 型 文本 框 中 ， 你 可 随心 所 谷地 编辑 文本 。 

D 要 保存 所 做 的 修改 ， 可 单 击 Save 按 钮 ， 这 将 把 大 型 文本 框 的 内 容 写 入 到 顶部 文本 框 指定 
的 文件 中 。 
口 没有 Quit (退出 ) 按钮 ， 用户 只 能 使 用 默认 Tkinter 菜 单 中 的 Quit 命 令 来 退出 程序 。 
这 项 任务 看 起 来 有 点 吓人 ,但 其 实 不 过 是 小 菜 一 碟 。 















































12.1.1 初探 
首先 ， 必 须 导 入 tkinter。 为 保留 其 命名 空间 ， 同 时 减少 输入 量 ， 可 能 需要 将 其 


import tkinter as tk 

然而 ， 如 果 你 愿意 ， 也 可 导入 这 个 模块 的 所 有 内 容 。 这 不 会 有 太 大 的 害处 。 

>>> from tkinter import * 

我 们 将 使 用 交互 式 解释 器 来 做 些 初探 工作 。 

要 创建 GUI， 可 创建 一 个 将 充当 主 窗 口 的 顶级 组 件 〈 控 件 )。 为 此 ， 可 实例 化 一 个 Tk 对 象 。 


>>> top = Tk( 
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此 时 将 出 现 一 个 窗口 。 在 常规 程序 中 ， 我 们 将 调用 函数 mainloop 以 进入 Tkinter 主 事件 循环 ， 
而 不 是 直接 退出 程序 。 在 交互 式 解 释 器 中 ， 不 需要 这 样 做 ， 但 你 完全 可 以 试 一 试 。 

>>> mainloop() 

解释 器 像 是 挂 起 了 ， 而 GUI 还 在 运行 。 为 了 继续 ， 请 退出 GUI 并 重启 解释 器 。 

有 很 多 可 用 的 控件 ， 它 们 的 名 称 各 异 。 例 如 ， 要 创建 按钮 ， 可 实例 化 Button 类 。 如 果 没 有 Tk 
实例 ， 创 建 控 件 也 将 实例 化 Tk， 因 此 可 不 先 实例 化 Tk， 而 直接 创建 控件 。 


>>> from tkinter import * 
>>> btn = Button() 


现在 这 个 按钮 是 不 可 见 的 一 一 你 需要 使 用 布局 管理 器 ( 也 叫 几何 体 管理 器 ) 来 告诉 Tkinter 
将 它 放 在 什么 地 方 。 我 们 将 使 用 管理 器 pack 一 一 在 最 简单 的 情况 下 只 需 调 用 方法 pack 即 可 。 

>>> btn.pack() 

控件 包含 各 种 属性 , 我 们 可 以 使 用 它们 来 修改 控件 的 外 观 和 行为 。 可 像 访问 字典 项 一 样 访问 
届 性 ， 因 此 要 给 按钮 指定 一 些 文本 ， 只 需 使 用 一 条 赋值 语句 即 可 。 

>>> btn['text'] = 'Click me!' 


至 此 ， 应 该 有 一 个 类 似 于 下 面 的 窗口 : 






























































Click me! 


给 按钮 添加 行为 也 非常 简单 。 
>>> def clicked(): 
print('I was clicked!') 


SS btn[ 'command'] = clicked 
现在 如 果 单 击 这 个 按钮 ， 将 看 到 指定 的 消息 被 打印 出 来 。 

可 以 不 分 别 给 属性 赋值 ， 而 使 用 方法 config 同 时 设置 多 个 属性 。 
>>> btn.config(text="'Click me!', command=clicked) 

还 可 使 用 控件 的 构造 函数 来 配置 控件 。 


>>> Button(text='Click me too!', command=clicked).pack() 























12.1.2 布局 


对 控件 调用 方法 pack 时 ,将 把 控件 放 在 其 父 控件 ( 主 控件 ) 中 。 要 指定 主 控件 ， 可 使 用 构造 
函数 的 第 一 个 可 选 参 数 ; 如 果 没 有 指定 ， 将 把 项 级 主 窗口 用 作 主 控件 ， 如 下 面 的 代码 片段 所 示 : 


Label(text="I'm in the first window!").pack() 
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second = Toplevel() 
Label(second, text="I'm in the second window!").pack() 


Toplevel 类 表示 除 主 窗口 外 的 男 一 个 顶级 窗口 ， 而 Label 就 是 文本 标签 。 
没有 提供 任何 参数 时 , pack 从 窗口 顶部 开始 将 控件 堆 秋 成 一 列 , 并 让 它们 在 窗口 中 水 平 居 中 。 
例如 ， 下 面 的 代码 生成 一 个 又 高 又 罕 的 窗口 ， 其 中 包含 一 列 按钮 : 


for i in range(10): 
Button(text=i).pack() 


所 幸 可 调整 控件 的 位 置 和 拉 伸 方式 。 要 指定 将 控件 停靠 在 哪 一 条 边 上 ， 可 将 参数 side 设 置 为 
LEFT、RIGHT 、TOP 或 BOTTOM。 要 让 控件 在 x 或 ?方向 上 填 满 分 配给 它 的 空间 , 可 将 参数 fi11 设 置 为 X、 
Y 或 BOTH。 要 让 控件 随 父 控件 ( 这 里 是 窗口 ) 一 起 增 大 ,可 将 参数 expand 设 置 为 True。 还 有 其 他 的 
选项 ， 如 指定 锚 点 和 内 边 距 的 选项 ,但 这 里 不 会 使 用 它们 。 要 快速 了 解 可 用 的 选项 ， 可 执行 如 下 



































>>> help(Pack.config ) 

还 有 其 他 的 布局 管理 器 ， 上 具体 地 说 是 grid 和 place， 它 们 可 能 更 能 满足 你 的 需求 。 与 pack 布 局 
管理 器 一 样 ， 要 使 用 它们 ， 可 对 控件 调用 方法 grid 和 place。 为 避免 麻烦 ， 在 一 个 容器 ( 如 窗口 ) 
中 应 只 使 用 一 种 布局 管理 需 。 

方法 grid 让 你 能 够 这 样 排列 控件 : 将 它们 放 在 不 可 见 的 表格 单元 格 中 。 为 此 需要 指定 参数 row 
和 column， 还 可 能 要 指定 参数 rowspan 或 columnspan 一 一 如 果 控 件 横 跨 多 行 或 多 列 。 方 法 place 让 
你 能 够 手工 放置 控件 一 一 通过 指定 控件 的 x 和 y 坐 标 以 及 高 度 和 宽度 来 做 到 。 这 在 大 多 数 情况 下 都 
是 馈 主 意 , 但 偶尔 可 能 需要 这 样 做 。 这 两 个 几何 体 管理 絮 都 还 有 其 他 的 参数 ,要 详细 了 解 ， 可 使 
用 如 下 命令 : 

>>> help(Grid.configure) 

>>> help(Place.config) 












































12.1.3 ”事件 处 理 


你 知道 ， 可 通过 设置 属性 command 给 按钮 指定 动作 ( action )。 这 是 一 种 特殊 的 事件 处 理 ， 但 
Tkinter 还 提供 了 更 通用 的 事件 处 理 机 制 : 方法 bind。 要 让 控件 对 特定 的 事件 进行 处 理 ， 可 对 其 调 
用 方法 bind， 并 指定 事件 的 名 称 和 要 使 用 的 函数 。 下 面 是 一 个 示例 : 


>>> from tkinter import * 

>>> top = Tk() 

>>> def callback(event): 
print(event.x, event.y) 


























>>> top.bind('<Button-1>', callback) 
'4322424456callback" 


其 中 <Button-1> 是 使 用 鼠标 左 按钮 (按钮 1 ) 单 击 的 事件 名 称 。 我 们 将 这 种 事件 关联 到 函数 
callback。 这 样 ,每 当 用 户 在 窗口 top 中 单 击 时 ,都 将 调用 这 个 函数 。 向 函数 callback 传 递 一 个 event 
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对 象 ， 这 个 对 象 包含 的 属性 随 事件 类 型 而 异 。 例 如 ， 对 于 鼠标 单 击 事件 ， 它 提供 了 x 和 ?坐标 ,在 
这 个 示例 中 将 它们 打印 出 来 了 。 还 有 很 多 其 他 类 型 的 事件 , 完整 的 清单 可 使 用 下 面 的 命令 来 获取 : 


>>> help(Tk.bind) 
要 获悉 更 详细 的 信息 ， 可 参阅 前 面 提 到 的 资源 。 


12.1.4 ”最 终 的 程序 


至 此 , 我 们 大 致 具备 了 编写 前 述 程序 所 需 的 知识 , 但 还 需 获 悉 用 于 创建 小 型 文本 框 和 大 型 文 
本 区 域 的 控件 的 名 称 。 通 过 快速 浏览 文档 可 知 ， 要 创建 单行 文本 框 ， 可 使 用 控件 Entry。 要 创建 
可 深 动 的 多 行文 本 区 域 ， 可 结合 使 用 控件 Text 和 Scrollbar， 但 模块 tkinter.scrolledtext 已 经 提 
供 了 一 种 实现 。 要 提取 Entry 控 件 的 内 容 ， 可 使 用 其 方法 get。 对 于 ScrolledText 对 象 ， 我 们 将 使 
用 其 方法 delete 和 insert 来 删除 文本 。 调 用 方法 delete 和 insert 时 ,需要 使 用 合适 的 参数 来 指定 
文本 的 位 置 ; 在 这 里 , 我 们 将 使 用 '1.0' 来 指定 第 1 行 的 第 0 个 字符 ( 即 第 一 个 字符 前 面 ), 使 用 END 
来 指定 文本 末尾 ， 并 使 用 INSERT 来 指定 当前 插入 点 。 最 终 的 程序 如 代码 清单 12-1 和 图 12-2 所 示 。 


代码 清单 12-1 简单 的 GUI 文本 编辑 器 


from tkinter import * 
from tkinter.scrolledtext import ScrolledText 















































def 1oad() : 
with open(filename.get()) as file: 
contents.delete('1.0', END) 
contents.insert(INSERT, file.read()) 


def save(): 
with open(filename.get(), 'w') as file: 
file.write(contents.get('1.0', END)) 


top = Tk() 
top.title("Simple Editor") 


contents = ScrolledText() 
contents.pack(side=BOTTOM, expand=True, fill=BOTH) 





filename = Entry() 
filename.pack(side=LEFT, expand=True, fill=X) 


Button(text="'Open', command=l0ad).pack(side=LEFT) 
Button(text="'Save', command=save).pack(side=LEFT) 


mainloop() 
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Ws 


将 被 覆盖 掉 。 
(4) 单 击 Save 按 钮 。 
(5) 退出 程序 。 
(6) 再 次 启动 程序 。 





Open Save 


图 12-2 ”最终 的 文本 编辑 器 


你 可 按 如 下 步骤 来 尝试 使 用 这 个 文本 编辑 器 。 

(1) 运行 这 个 程序 ， 你 将 看 到 一 个 类 似 于 图 12-2 的 窗口 。 

(2) 在 大 型 文本 区 域 中 输入 一 些 内 容 ， 如 Hello, world!。 

(3) 在 小 型 文本 框 中 输入 一 个 文件 名 ， 如 hello.txt。 请 确保 指定 的 文件 不 存在 ， 否 则 原 有 文件 


(7) 在 小 型 文本 框 中 输入 刚才 输入 的 文件 名 。 

(8) 单 击 Open 按 钮 ， 这 个 文件 包含 的 文本 将 出 现在 大 型 文本 区 域 中 。 
(9) 随心 所 欲 地 编辑 这 个 文件 ， 再 保存 它 。 
现在 可 以 不 断 地 打开 、 编 辑 并 保存 ,厌烦 后 就 可 开始 考虑 如 何 改进 了 。 例 如 ， 让 这 个 程序 使 





用 模块 urllib 下 载 文件 如 何 ? 























当然 , 还 可 考虑 在 程序 中 采用 面向 对 象 程度 更 高 的 设计 。 例如 ,你 可 能 想 自 定义 一 个 应 用 程 
序 类 , 再 通过 实例 化 这 个 类 来 创建 主 应 用 程序 ; 同时 , 在 这 个 自 定义 应 用 程序 类 中 包含 设置 各 种 


控件 和 绑 定 的 方法 。 有 关 这 样 的 示例 ， 请 参阅 





卓越 的 控件 和 其 他 类 以 供 使 有 








目 。 对 于 要 使 用 的 








档 以 获悉 有 关 它 的 详细 信息 。 


12.2 ”使 用 其 他 GUI 


工具 包 








第 28 章 。 与 其 他 GUI 包 一 样 ，Tkinter 也 提供 了 一 组 


下 








图 形 界面 元 素 ， 你 应 使 用 help(tkinter) 或 参阅 文 





大 部 分 GUI 工具 包 的 基本 要 素 都 大 致 相同 ， 但 遗憾 的 是 ， 当 你 学 习 使 用 新 包 时 ， 必 须 花 时 间 
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了 解 让 你 能 够 实现 目标 的 细节 。 因 此 ,你 应 花 时 间 来 决定 使 用 哪个 包 ( 如 参阅 标准 库 参 考 手册 中 
介绍 其 他 GUI 包 的 部 分 )， 再 深入 研究 其 文档 并 着 手 开始 编写 代码 。 但 愿 本 章 介绍 的 基本 概念 让 


你 能 够 理解 这 些 文档 。 




















12.3 ”小结 


同样 ， 下 面 来 复习 一 下 本 章 介 绍 的 内 容 。 

口 图 形 用 户 界面 (GUI1): GUI 有 助 于 让 应 用 程序 对 用 户 更 友好 。 并 非 所 有 的 程序 都 需要 GUL， 

但 只 要 程序 需要 与 用 户 交 互 ，GUI 就 可 能 很 有 帮助 。 

口 Tkinter: Tkinter 是 一 个 跨 平 台 的 Python GUI 工具 包 ， 成 熟 而 且 使 用 广泛 。 
布局 : 通过 指定 组 件 的 几何 属性 ， 很 容易 对 其 进行 定位 ， 但 要 确保 它们 在 父 窗口 的 大 小 
发 生变 化 时 做 出 正确 的 反应 ， 就 必须 使 用 布局 管理 器 。 

口 事件 处 理 : GUI 工 具 包 中 用 户 触 发 事件 执行 的 操作 。 要 发 挥 作用 , 程序 可 能 需要 响应 某 些 
事件 ， 否 则 用 户 将 无 法 与 之 交互 。 在 Tkinter 中 ， 要 给 组 件 添加 事件 处 理 程序 ， 可 使 用 方 


法 bind。 












































预告 
至 此 ， 你 知道 了 如 何 编写 能 够 通过 文件 和 GUI 与 外 部 世界 交互 的 程序 。 在 下 一 章 ， 你 将 学 习 
很 多 程序 和 系统 都 包含 的 另 一 个 重要 组 件 : 数据 库 。 




















数据 库 支持 











使 用 简单 的 纯 文 本 文件 可 实现 的 功能 有 限 。 诚然 , 使 用 它们 可 做 很 多 事情 , 但 有 时 可 能 还 需 
要 额外 的 功能 。 你 可 能 希望 能 够 自动 完成 序列 化 ， 此 时 可 求助 于 shelve (参见 第 10 章 ) 和 pickle 
( 类似 于 shelve )。 不 过 你 可 能 需要 比 这 更 强大 的 功能 。 例 如 ， 你 可 能 想 自动 支持 数据 并 发 访问 ， 
即 允 许多 位 用 户 读 写 磁盘 数据 ,而 不 会 导致 文件 受 损 之 类 的 问题 。 还 有 可 能 希望 同时 根据 多 个 数 
据 字 有 段 或 属性 进行 复杂 的 搜索 ， 而 不 是 采用 shelve 提 供 的 简单 的 单 键 查找 。 尽 管 可 供 选 择 的 解决 
方案 有 很 多 , 但 如 果 要 处 理 大 量 的 数据 ， 并 和 希望 解决 方案 易于 其 他 程序 员 理 解 ， 选 择 较 标准 的 数 
据 库 可 能 是 个 不 错 的 主意 。 

本 章 讨论 Python 数 据 库 API( 一 种 连接 到 SQL 数 据 库 的 标准 化 方式 ), 并 演示 如 何 使 用 这 个 API 
来 执行 一 些 基 本 的 SQL。 最 后 ， 本 章 将 讨论 其 他 一 些 数据 库 技术 。 

这 里 不 会 提供 关系 型 数据 库 和 SQL 语言 教程 。 通 过 阅读 有 关 数 据 库 ( 如 PostgreSQL、MySQL 
或 本 章 使 用 的 SQLite ) 的 文档 ， 就 应 该 能 够 学 到 你 需要 知道 的 知识 。 如 果 你 以 前 没有 使 用 过 关系 
型 数据 库 ， 可 参阅 www.sqlcourse.com 或 在 网 上 搜索 相关 的 主题 ， 也 可 参阅 Clare Churcher 的 著作 
Beginning SOL Oueries, 2nd ed ( Apress, 2016 )。 

本 章 使 用 的 是 简单 数据 库 SQLite， 但 显然 绝 非 只 能 使 用 它 。 有 多 种 流行 的 商用 数据 库 ， 如 
Oracle 和 Microsoft SQL Server, 还 有 一 些 使 用 广泛 而 且 可 靠 的 开源 数据 库 , 如 MySQL、 PostgreSQL 
和 Firebird。 有 关 Python 支 持 的 数据 库 清单 ， 请 参阅 https://wiki.python.org/moin/DatabaseInterfaces。 
数据 库 也 并 非 只 有 关系 型 (SQL ) 这 一 种 ， 还 有 对 象 数 据 库 [ 如 Zope Object Database ( ZODB， 
http://zodb.org )]、 基 于 表格 的 紧凑 数据 库 [ 如 Metakit ( http://equi4.com/metakit ) |]、 更 简单 的 
键 - 值 数据 库 [如 UNIX DBM ( https://docs.python.org/3/library/dbm.html ) ]。 另 外 ， 还 有 日 益 流 行 
的 各 种 NoSQL 数 据 库 , 如 MongoDB ( http://mongodb.com )、Cassandra ( http://cassandra.apache.org ) 
和 Redis (http:/redis.io )， 这 些 数据 库 都 可 使 用 Python 来 访问 。 

本 章 的 重点 是 低级 的 数据 库 交 互 , 但 有 一 些 高 级 库 能 够 让 你 轻松 地 完成 复杂 的 工作 , 要 获悉 
这 方面 的 信息 ， 可 参阅 http://sqlalchemy.org 或 http://sqlobject.org， 也 可 在 网 上 搜索 Python 对 象 - 关 
系 映射 器 。 


13.1 Python 数据 库 API 
前 面 说 过 ， 有 各 种 SQL 数据 库 可 供 选择 ， 其 中 很 多 都 有 相应 的 Python 客户 端 模块 ( 有些 数据 
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库 甚至 有 多 个 )。 所 有 数据 库 的 大 多 数 基 本 功能 都 相同 ， 因 此 从 理论 上 说 ， 对 于 使 用 其 中 一 种 数 
据 库 的 程序 , 很 容易 对 其 进行 修改 以 使 用 另 一 种 数据 库 。 问 题 是 即便 不 同 模块 提供 的 功能 大 致 相 
同 ， 它 们 的 接口 (API ) 也 是 不 同 的。 为 解决 Python 数据 库 模 块 存在 的 这 种 问题 ， 人 们 一 致 同 意 
开发 一 个 标准 数据 库 API( DB API )。 这 个 API 的 最 新 版 本 ( 2.0 ) 是 在 PEP 249( Python Database API 
Specification v2.0 ) 中 定义 的 ， 网 址 为 http://python.org/peps/pep-0249.html。 

本 节 概 述 有 关 该 API 的 基础 知识 。 这 里 不 会 涉及 其 可 选 部 分 ， 因 为 它们 并 不 适用 于 所 有 数据 
库 。 有关 该 API 的 详细 信息 ,可 参阅 前 面 提 到 的 PEP, 也 可 参阅 Python 官方 维基 百科 中 的 数据 库 编 
程 指南 (http:/wiki.python.org/moin/DatabaseProgramming )。 如 果 你 对 这 个 API 的 细节 不 感 兴 趣 ， 
可 跳 过 本 节 。 
13.1.1 全 局 变量 

所 有 与 DB API2.0 兼 容 的 数据 库 模 块 都 必须 包含 三 个 全 局 变量 ， 它 们 描述 了 模块 的 特征 。 这 
样 做 的 原因 是 ， 这 个 API 设 计 得 很 灵活 ， 无 需 进 行 太 多 包装 就 能 配合 多 种 不 同 的 底层 机 制 使 用 。 
如 果 要 让 程序 能 够 使 用 多 种 不 同 的 数据 库 ， 可 能 会 比较 麻烦 ， 因 为 需要 考虑 众多 不 同 的 可 能 性 。 
在 很 多 情况 下 , 一 种 更 现实 的 做 法 是 检查 这 些 变 量 , 看 看 给 定 的 模块 是 否 是 程序 能 够 接受 的 。 如 
果 不 是 ， 就 显示 合适 的 错误 消息 并 退出 或 者 引发 异常 。 表 13-1 总 结 了 这 些 全 局 变量 。 


表 13-1 Python DB API 的 模块 属性 








































































































变 量 名 描述 

apilevel 使 用 的 Python DB API 版 本 
threadsafety 模块 的 线程 安全 程度 如 何 
paramstyle 在 SQL 查 询 中 使 用 哪 种 参数 风格 











API 级 别 (apilevel ) 是 一 个 字符 串 常量 ， 指 出 了 使 用 的 API 版 本 。DB API2.0 指 出 ， 这 个 变 
量 的 值 为 '1.0' 或 '2.0'。 如 果 没 有 这 个 变量 ， 就 说 明 模 块 不 与 DB API 2.0 兼 容 ， 应 假定 使 用 的 是 
DB API 1.0。 编 写 代 码 时 ， 人 允许 这 个 变量 为 其 他 值 也 没有 害处 ， 因 为 说 不 定 什么 时 候 DB API 3.0 
就 出 来 了 。 

线程 安全 程度 ( threadsafety ) 是 一 个 0~3( 含 ) 的 整数 。0 表 示 线 程 不 能 共享 模块 ， 而 3 表 
示 模 块 是 绝对 线程 安全 的 。1 表 示 线 程 可 共享 模块 本 身 ， 但 不 能 共享 连接 (参见 13.1.3 节 )， 而 2 
表示 线程 可 共享 模块 和 连接 , 但 不 能 共享 游标 。 如 果 你 不 使 用 线程 ( 在 大 多 数 情 况 下 可 能 不 会 是 
这 样 的 )， 就 根本 不 用 关心 这 个 变量 。 

参数 风格 (paramstyle ) 表示 当 你 执行 多 个 类 似 的 数据 库 查 询 时 ， 如 何在 SQL 查 询 中 插入 参 
数 。'format' 表 示 标 准 字符 串 格式 设置 方式 (使 用 基本 的 格式 编码 )， 如 在 要 插入 参数 的 地 方 插 
人 %s。'pyformat' 表 示 扩 展 的 格式 编码 ， 即 旧式 字典 插入 使 用 的 格式 编码 ， 如 %(foo)s。 除 这 些 
Python 风 格外 ， 还 有 三 种 指定 待 插入 字段 的 方式 :'qmark' 表 示 使 用 问号 ，'numeric' 表 示 使 用 :1 
和 :2 这 样 的 形式 表示 字段 ( 其 中 的 数字 是 参数 的 编号 ), 而 'named' 表 示 使 用 :foobar 这 样 的 形式 表 
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示 字 段 ( 其 中 foobar 为 参数 名 )。 如 果 你 觉得 参数 样式 令 人 迷惑 ， 也 不 用 担心 。 编 写 简单 程序 时 ， 
不 会 用 到 它们 。 如 果 需 要 明白 特定 的 数据 库 是 如 何 处 理 参数 的 ， 可 参阅 相关 的 文档 。 





























13.1.2 “异常 


DB API 定 义 了 多 种 异常 ， 让 你 能 够 细致 地 处 理 错误 。 然 而 ， 这 些 异 常 构成 了 一 个 层次 结构 ， 
因此 使 用 一 个 except 块 就 可 捕获 多 种 异常 。 当 然 ， 如 果 你 觉得 一 切 都 正常 运行 ， 且 不 介意 出 现 不 
太 可 能 出 现 的 错误 时 关闭 程序 ， 可 以 根本 不 考虑 这 些 异 常 。 

表 13-2 说 明了 这 个 异常 层次 结构 。 异 常 应 该 在 整个 数据 库 模块 中 都 可 用 。 有 关 这 些 异常 的 深 
入 描述 ， 请 参阅 DB API 规 范 ( 前 面 提 到 的 PEP )。 
































表 13-2 Python DB API 指 定 的 异常 
























































异 常 超 类 描述 
StandardError 所 有 异常 的 超 类 
Warning StandardError 发 生 非 致命 问题 时 引发 
Error StandardError 所 有 错误 条 件 的 超 类 
InterfaceError Error 与 接口 (而 不 是 数据 库 ) 相关 的 错误 
DatabaseError Error 与 数据 库 相 关 的 错误 的 超 类 
DataError DatabaseError 与 数据 相关 的 问题 ， 如 值 不 在 合法 的 范围 内 
OperationalError DatabaseError 数据 库 操作 内 部 的 错误 
IntegrityError DatabaseError 关系 完整 性 遭 到 破坏 ， 如 键 未 通过 检查 
InternalError DatabaseError 数据 库 内 部 的 错误 ， 如 游标 无 效 
ProgrammingError DatabaseError j 户 编程 错误 ， 如 未 找到 数据 库 表 
NotSupportedError DatabaseError 请 求 不 支持 的 功能 ， 如 回 滚 
































13.1.3 ”连接 和 游标 


要 使 用 底层 的 数据 库 系 统 ， 必 须 先 连 接 到 它 ， 为 此 可 使 用 名 称 贴切 的 函数 connect。 这 个 函 
数 接受 多 个 参数 ,具体 是 哪些 取决 于 要 使 用 的 数据 库 。 作 为 指南 ，DB API 定 义 了 表 13-3 所 示 的 参 
数 。 推 荐 将 这 些 参数 定义 为 关键 字 参 数 , 并 按 表 13-3 所 示 的 顺序 排列 。 这 些 参数 都 应 该 是 字符 串 。 


表 13-3 ”函数 connect 的 常用 参数 
























































参 数 名 描述 是 否 可 先 
dsn 数据 源 名 称 ， 具 体 含义 随 数据 库 而 异 否 
USeT j 户 名 是 
password ] 户 密码 是 
host 主机 名 是 
database 数据 库 名 称 是 
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13.2.1 节 和 第 26 章 提供 了 枯 数 connect 的 具体 使 用 示例 。 
函数 connect 返 回 一 个 连接 对 象 ,表示 当前 到 数据 库 的 会 话 。 连 接 对 象 支持 表 13-4 所 示 的 方法 。 


表 13-4 ”连接 对 象 的 方法 






























































方 法 名 描 述 

close() 关闭 连接 对 象 。 之 后 ， 连 接 对 象 及 其 游标 将 不 可 用 
commit() 提交 未 提交 的 事务 一 一 如 果 文 持 的 话 ; 否则 什么 都 不 做 
rollback() 可 深 未 提交 的 事务 可 能 不 可 用 ) 

cursor() 返回 连接 的 游标 对 象 

















方法 rollback 可 能 不 可 用 ,因为 并 非 所 有 的 数据 库 都 支持 事务 〈 事务 其 实 就 是 一 系列 操作 )。 
可 用 时 ， 这 个 方法 撤销 所 有 未 提交 的 事务 。 

方法 commit 总 是 可 用 的 ， 但 如 果 数 据 库 不 支持 事务 ， 这 个 方法 就 什么 都 不 做 。 关 闭 连接 时 ， 
如 果 还 有 未 提交 的 事务 , 将 隐 式 地 回 滚 它们 一 一 但 仅 当 数据 库 支 持 回 滚 时 才 如 此 ! 如 果 你 不 想 依 
赖 于 这 一 点 ,应 在 关闭 连接 前 提交 。 只 要 提交 了 所 有 的 事务 ， 就 无 需 操心 关闭 连接 的 事情 ， 因 为 
作为 垃圾 被 收集 时 ， 连 接 会 自动 和 关闭。 然而， 为 安全 起 见 ， 还 是 调用 close 吧 ， 因 为 这 样 做 不 需 
要 长 时 间 敲 击 键 盘 。 

说 到 方法 cursor， 就 必须 说 说 另 一 个 主题 : 游标 对 象 。 你 使 用 游标 来 执行 SQL 查询 和 查看 结 
果 。 游 标 支 持 的 方法 比 连接 多 ， 在 程序 中 的 地 位 也 可 能 重要 得 多 。 表 13-5 概 述 了 游标 的 方法 ， 而 
表 13-6 概 述 了 游标 的 属性 。 












































表 13-5 ”游标 对 象 的 方法 



















































































































































































名 称 描 述 
callproc(name[, params]) 使 用 指定 的 参数 调用 指定 的 数据 库 过 程 (可 选 ) 
close() 关闭 游标 。 关 闭 后 游标 不 可 用 
execute(oper[，params]) 执行 一 个 SQL 操作 可 能 指定 参数 
executemany(oper, pseq) 执行 指定 的 SQL 操作 多 次 ， 每 次 都 序列 中 的 一 组 参数 
fetchone() 以 序列 的 方式 取 回 查询 结果 中 的 下 一 行 ， 如 果 没 有 更 多 的 行 ， 就 返回 None 
fetchmany([size]) 取 回 查询 结果 中 的 多 行 ， 其 中 参数 size 的 值 默认 为 arraysize 
fetchall() 以 序列 的 序列 的 方式 取 回 余下 的 所 有 行 
nextset() 跳 到 下 一 个 结果 集 ， 这 个 方法 是 可 选 的 
setinputsizes(sizes) 用 于 为 参数 预定 义 内 存 区 域 
setoutputsize(size[，col]) 为 取 回 大 量 数据 而 设置 缓冲 区 长 度 
表 13-6 ”游标 对 象 的 属性 
名 称 描 述 
description 结果 列 描述 组 成 的 序列 〈 只 读 ) 
rowcount 结果 包含 的 行 数 (只 读 ) 


arraysize fetchmany 返 回 的 行 数 ， 默 认为 1 
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有 些 方法 将 在 本 章 后 面 详细 讨论 ， 还 有 一 些 ( 如 setinputsizes 和 setoutputsizes ) 则 不 会 讨 
论 。 有 关 这 些 方法 的 详细 信息 ， 请 参阅 前 面 提 到 的 PEP。 


13.1.4 ”类 型 


对 于 插入 到 某 些 类 型 的 列 中 的 值 ， 底层 SQL 数 据 库 可 能 要 求 它们 满足 一 定 的 条 件 。 为 了 能 够 
与 底层 SQL 数据 库 正 确 地 互 操作 ，DB API 定 义 了 一 些 构造 函数 和 常量 ( 单 例 )， 用 于 提供 特殊 的 
类 型 和 值 。 例 如 ， 要 在 数据 库 中 添加 日 期 ,应 使 用 相应 数据 库 连 接 模 块 中 的 构造 函数 Date 来 创建 
它 ， 这 让 连接 模块 能 够 在 幕后 执行 必要 的 转换 。 每 个 模块 都 必须 实现 表 13-7 所 示 的 构造 函数 和 特 
殊 值 。 有 些 模块 可 能 没有 完全 遵守 这 一 点 。 例如 , 接 下 来 将 讨论 的 模块 sqlite3 就 没有 导出 表 13-7 
中 特殊 值 ( 从 STRING 到 ROWID )。 


表 13-7 DB API 构 造 函 数 和 特殊 值 








































































































名 称 描述 
Date(year, month, day) 创建 包含 日 期 值 的 对 象 
Time(hour, minute, second) 创建 包含 时 间 值 的 对 象 
Timestamp(y, mon, d, h, min, s) 创建 包含 时 间 戳 的 对 象 
De 根据 从 新 纪元 开始 过 去 的 秒 数 创建 包含 日 期 值 的 对 象 
TO 根据 从 新 纪元 开始 过 去 的 秒 数 创 建 包含 时 间 值 的 对 象 
Imes TampFronl cks (teks) 根据 从 新 纪元 开始 过 去 的 秒 数 创建 包含 时 间 截 的 对 象 
asy (Sine 创建 包含 二 进 制 字符 串 值 的 对 象 
>Is 措 述 基于 字符 串 的 列 (如 CHAR ) 
Ne 蕴 述 二 进 制 列 〔《 如 LONG 或 RAW ) 
MSER 尘 述 数字 列 
和 措 述 日 期 /时 间 列 
es 措 述 行 ID 列 











13.2 SQLite 和 PySQLite 


前 面 说 过 ， 可 用 的 SQL 数据 库 引 擎 有 很 多 ， 它 们 都 有 相应 的 Python 模块 。 这 些 数据 库 引 擎 大 
都 作为 服务 器 程序 运行 ， 连 安装 都 需要 有 管理 员 权 限 。 为 降低 Python DB API 的 使 用 门槛 ， 我 选 
择 了 一 个 名 为 SQLite 的 小 型 数据 库 引擎 。 它 不 需要 作为 独立 的 服务 器 运行 ， 且 可 直接 使 用 本 地 文 
件 ， 而 不 需要 集中 式 数据 库存 储 机 制 。 

在 较 新 的 Python 版 本 ( 从 2.5 开 始 ) 中 ，SQLite 更 具 优 势 ， 因 为 标准 库 包 含 一 个 SQLite 包 装 
侣 : 使 用 模块 sqlite3 实 现 的 PySQLite。 除 非 从 源 代码 编译 Python， 否则 Python 很 可 能 包含 这 个 
数据 库 。 你 可 能 应 尝试 运行 13.2.1 节 中 的 程序 片段 , 如 果 它 能 够 运行 , 就 无 需 专门 安装 PySQLite 
和 SQLite 了 。 
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注意 ”如果 你 使 用 的 不 是 标准 库 中 的 PySQLite 版 本 ， 可 能 需要 修改 前 述 程序 片段 中 的 import 语 
向 。 有 关 这 方面 的 详细 信息 ， 请 参阅 相关 的 文档 。 


如 果 你 使 用 的 是 较 旧 的 Python 版 本 ,必须 安装 PySQLite 才能 使 用 SQLite 数据 库 ， 可 
从 https://github.com/ghaering/pysqlite 下 载 。 

在 带 包 管理 器 系统 的 Linux 系统 中 ， 很 可 能 可 直接 从 包 管 理 器 获取 PySQLite 和 
SQLite。 你 也 可 使 用 Python 自己 的 包 管 理 器 pip。 另 外 ， 你 还 可 获取 PySQLite 和 SQLite 
的 源 代码 包 ， 再 自己 编译 它们 。 

如 果 你 使 用 的 是 较 新 的 Python 版 本 ， ee 定 已 经 有 PySQLite。 如 果 有 什么 
失 了 ，, 那 就 是 数据 库 本 身 , 即 SQLite( 但 这 也 很 可 能 已 经 有 了 ) 在 这 种 情况 下 , 可 从 ， 
官网 (http:/sqlite.org ) 获取 源 代 码 (务必 获取 执行 了 自动 代码 生成 的 源 代码 包 )。 要 编译 
SQLite， 只 需 按 README 文件 中 的 说 明 做 即 可 。 接 着 编译 PySQLite 时 ， 必 须 确保 编译 进 

程 能 够 访问 SQLite 库 和 include 文件 。 如 果 SQLite 被 安装 在 标准 位 置 ，PySQLite 发 布 版 
中 的 安装 脚本 很 可 能 能 够 找到 它 。 在 这 种 情况 下 ， 只 需 执行 如 下 命令 即 可 : 


python setup.py build 
python setup.py install 


你 也 可 以 只 执行 第 二 个 命令 ,因为 它 将 自动 执行 构建 过 程 。 如 果 这 样 做 时 出 现 了 大 量 
的 错误 消息 ， 很 可 能 是 因为 安装 奖 脚 本 没有 找到 所 需 的 文件 。 请 确保 你 知道 include 文件 和 
库 安 装 在 什么 地 方 ， 个 位 置 提供 给 安装 脚本 。 假 设 我 在 目录 /home/mlh/ 
sqlite/current 中 就 地 编译 了 SQLite， 那 么 头 文 件 可 能 位 于 /home/mlh/sqlite/current/src， 而 库 
位 于 /home/mlh/sqlite/current/build/lib。 为 了 让 安装 进程 使 用 这 些 路 径 ， 可 编辑 安装 脚本 
setup.py， 在 其 中 像 下 面 这样 设 置 变 量 include dirs 和 1ibrary dirs。 

include dirs = ['/home/mlh/sqlite/current/src'] 


library dirs = ['/home/mlh/sqlite/current/build/1ib'] 


重新 设置 这 些 变量 后 ， 前 面 介 绍 的 安装 流程 应 该 管用 ， 不 会 出 现 错误 。 


13.2.1 起 步 


要 使 用 Python 标准 库 中 的 SQLite, 可 通过 导入 模块 sqlite3 来 导入 它 。 然 后 ,就 可 创建 直接 到 
数据 库 文件 的 连接 。 为 此 ， 只 需 提 供 一 个 文件 名 ( 可 以 是 文件 的 相对 路 径 或 绝对 路 径 ); 如 果 指 
定 的 文件 不 存在 ， 将 自动 创建 它 。 


>>> import sqlite3 
>>> conn = sqlite3.connect('somedatabase.db') 


接 下 来 可 从 连接 获得 游标 。 
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>>> curs = conn.cursor() 

这 个 游标 可 用 来 执行 SQL 查询 。 执 行 完 查询 后 ， 如 果 修 改 了 数据 ,务必 提交 所 做 的 修改 ， 这 
样 才 会 将 其 保存 到 文件 中 。 

>>> conn.commit() 

你 可 以 (也 应 该 ) 在 每 次 修改 数据 库 后 都 进行 提交 ， 而 不 是 仅 在 要 关闭 连接 前 才 这 样 做 。 要 
关闭 连接 ， 只 需 调用 方法 close。 


>>> conn.close() 











13.2.2 ”数据 库 应 用 程序 示例 


作为 示例 ， 我 将 演示 如 何 创 建 一 个 小 型 的 营养 成 分 数据 库 ， 这 个 数据 库 基 于 美国 农业 部 
(USDA ) 农业 研究 服务 (https:/www.ars.usda.gov ) 提供 的 数据 。 美 国 农业 部 的 链接 常常 会 有 细 
微 的 变化 ,但 只 要 按 下 面 介 绍 的 做 ,就 应 该 能 够 找到 相关 的 数据 集 。 在 网 页 https:/www.ars.usda.gov 
中 ， 单 击 下 拉 列 表 Research 中 的 链接 Databases and Datasets 进 入 相应 的 页 面 ， 再 单 击 其 中 的 链接 
Nutrient Data Laboratory。 在 打开 的 页 面 中 , 应 该 能 够 找到 链接 USDA National Nutrient Database for 
Standard Reference。 在 单 击 这 个 链接 打开 的 页 面 中 有 大 量 的 数据 文件 ,它们 使 用 的 是 我 们 需要 的 
纯 文 本 (ASCII ) 格式 。 单 击 链接 Download， 并 下 载 标题 Abbreviated 下 链接 ASCII 指 向 的 zip 文 件 。 
你 将 获得 一 个 zip 文 件 ， 其 中 包含 一 个 名 为 ABBREYV.txt 的 文本 文件 ， 还 有 一 个 描述 该 文件 内 容 的 
PDF 文件 。 如 果 你 找 不 到 这 个 文件 ， 也 可 使 用 其 他 的 旧 数 据 ， 只 是 需要 相应 地 修改 源 代码 。 

在 文件 ABBREV.txt 中 ， 每 行 都 是 一 条 数据 记录 ， 字 上 段 之 间 用 脱 字 符 (^ ) 分 隔 。 数 字 字 段 直 
接 包含 数字 ， 而 文本 字段 用 两 个 波浪 字符 (~ ) 将 其 字符 串 值 括 起 。 下 面 是 一 个 示例 行 (为 简洁 
起 见 删 除了 部 分 内 容 ): 

~07276~^~HORMEL SPAM ... PORK W/ HAM MINCED CND>Y^ ... ^~1 serving~“^^~~^0 

要 将 这 样 的 行 分 解 成 字段 ， 只 需 使 用 line.split('^') 即 可 。 如 果 一 个 字段 以 波浪 字符 打头 ， 
你 就 知道 它 是 一 个 字符 串 ， 因 此 可 使 用 field.strip('~') 来 获取 其 内 容 。 对 于 其 他 字段 ( 即 数字 
字段 )， 使 用 float(field) 就 能 获取 其 内 容 ， 但 字段 为 空 时 不 能 这 样 做 。 本 节 接 下 来 将 开发 一 个 
程序 ， 将 这 个 ASCI 文 件 中 的 数据 转换 为 SQL 数据 库 ， 并 让 你 能 够 执行 一 些 有 趣 的 查询 。 



























































注意 这 个 示例 程序 很 简单 ， 我 是 有 意 为 之 的 。 有 关 在 Python 中 使 用 数据 库 的 复杂 示例 ， 请 参 
阅 第 26 章 。 


1. 创建 并 填充 数据 库 表 

要 创建 并 填充 数据 库 表 , 最 简单 的 解决 方案 是 单独 编写 一 个 一 次 性 程序 。 这 样 只 需 运 行 这 
程序 一 次 ， 就 可 将 它 及 原始 数据 源 ( 文件 ABBREV.txt ) 抛 在 脑 后 了 ， 不 过 保留 它 个 
错 的 主意 。 

代码 清单 13-1 所 示 的 程序 创建 一 个 名 为 food 的 表 ( 其 中 包含 一 些 合适 的 字段 ); 读 取 文件 
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ABBREVtxt 并 对 其 进行 分 析 ( 使 用 工具 函数 convert 对 各 行进 行 分 割 并 对 各 个 字段 进行 转换 ); 通 
过 调用 curs.execute 来 执行 一 条 SQL INSERT 语 句 ， 0 5 

注意 : 也 可 使 用 curs.executemany， 并 向 它 提 供 一 个 列表 ( 其 中 包含 从 数据 文件 中 提取 的 所 
有 行 )。 就 这 里 而 言 ， 这 样 做 速度 稍 有 提高 ， 但 如 果 使 用 的 是 通过 网 络 连接 的 客户 /服务 器 SQL 系 
统 ， 速 度 将 有 极 大 的 提高 。 


代码 清单 13-1 将 数据 导入 数据 库 ( importdata.py ) 


import sqlite3 














def convert(value): 
if value.startswith('~'): 
return value.strip('~') 
if not value: 

value = 0 
return float(value) 








conn 
CULES. 


sqlite3.connect('food.db') 
conn.cursor() 


CUITS.execute(" 











CREATE TABLE food ( 
id TEXT PRIMARY KEY， 
desc TEXT， 
water FLOAT, 
kcal FLOAT， 
protein FLOAT， 
fat FLOAT, 
ash FLOAT， 
carbs FLOAT, 
fiber FLOAT, 
sugar FLOAT 
a 
query = 'INSERT INTO food VALUES (?,?,?,?,?,?,?,?,?,?) 
field count = 10 
for line in open('ABBREV.txt'): 





fields = line.split('^') 
vals = [convert(f) for f in fields[:field count]] 
curs.execute(query, vals) 


conn.commit() 
conn.close() 


注意 ”在 代码 清单 13-1 中 ,使 用 的 参数 风格 为 qmark， 即 使 用 问号 来 标记 字段 。 如 果 你 使 用 的 是 
较 旧 的 PySQLite 版 本 ， 可 能 需要 使 用 字符 % 来 标记 字段 。 





当 你 运行 这 个 程序 时 (文件 ABBREVtxt 和 它 位 于 同一 个 目录 )， 它 将 新 建 一 个 名 为 food.db 的 
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文件 ， 其 中 包含 数据 库 中 的 所 有 数据 。 

建议 你 多 多 尝试 这 个 程序 : 使 用 不 同 的 输入 、 添 加 print 语 句 等 。 

2. 搜索 并 处 理 结果 

数据 库 使 用 起 来 非常 简单 : 创建 一 条 连接 并 从 它 获取 一 个 游标 ; 使 用 方法 execute 执 行 SQL 
查询 并 使 用 诸如 fetchal1 等 方法 提取 结果 。 代 码 清 单 13-2 是 一 个 微型 程序 ， 它 通过 命令 行 参 数 接 
受 一 个 SQL SELECT 条 件 ， 并 以 记录 格式 将 返回 的 行 打印 出 来 。 你 可 在 命令 行 中 像 下 面 这 样 尝试 运 
行 它 : 

$ python food query.py "kcal <= 100 AND fiber >= 10 ORDER BY sugar" 

运行 这 个 程序 时 ， 你 可 能 发 现 了 一 个 问题 : 第 一 行 指 出 ， 生 橘子 皮 (raw orange peel ) 好 像 
不 含 任何 糖分 。 这 是 因为 在 数据 文件 中 缺少 这 个 字段 。 你 可 对 导入 脚本 进行 改进 ， 以 检测 这 种 情 
况 ， 并 插入 None 而 不 是 0 来 指出 缺失 数据 。 这 样 ， 你 就 可 使 用 类 似 于 下 面 的 条 件 : 

"kcal <= 100 AND fiber >= 10 AND sugar ORDER BY sugar" 

这 要 求 仅 当 sugar 字 上 段 包 含 实际 数据 时 才 返 回 相 应 的 行 。 这 种 策略 恰好 也 适用 于 当前 的 数据 
库 一 一 上 述 条 件 将 丢弃 糖分 为 0 的 行 。 

你 可 能 想 尝试 使 用 DD 搜索 特定 食品 的 条 件 , 如 使 用 ID 08323 搜 索 Cocoa Pebbles。 问 题 是 SQLite 
处 理 其 值 的 方式 不 那么 标准 ， 事 实 上 ， 它 在 内 部 将 所 有 的 值 都 表示 为 字符 串 ， 因 此 在 数据 库 和 
Python API 之 间 将 执行 一 些 转换 和 检查 。 通 常 ， 这 没有 问题 ， 但 使 用 ID 搜索 可 能 会 遇 到 麻烦 。 如 
果 你 提供 值 08323 ， 它 将 被 解读 为 数字 8323 ， 进 而 被 转换 为 字符 串 "8323" ， 即 一 个 不 存在 的 ID。 
在 这 种 情况 下 ,可 能 应 该 显示 错误 消息 ， 而 不 是 采取 这 种 意外 且 毫 无 帮助 的 行为 ; 但 如 果 你 很 小 
心 ， 在 数据 库 中 就 将 ID 设 置 为 字符 串 "08323" ， 就 不 会 出 现 这 种 问题 。 


代码 清单 13-2 食品 数据 库 查 询 程 序 ( food query.py ) 


import sqlite3, sys 




















































































































conn = sqlite3.connect('food.db') 
curs = conn.cursor() 


query = "SELECT * FROM food WHERE ' + sys.argv[1] 
print(query) 
curs.execute(query) 
names = [f[0] for f in curs.description] 
for row in curs.fetchall(): 
for pair in zip(names, row): 
print('{}: {}'.format(*pair)) 
print( 





警告 ”这 个 程序 从 用 户 那 里 获取 输入 ,并 将 其 插入 到 SQL 查 询 中 。 在 你 是 用 户 而 且 不 会 输入 太 不 
可 思议 的 内 容 时 ， 这 没有 问题 。 然 而 ， 利 用 这 种 输入 偷偷 地 插入 恶意 的 SQL 代码 以 破坏 数 
据 库 是 一 种 常见 的 计算 机 攻击 方式 ， 称 为 SQL 注入 攻击 。 请 不 要 让 你 的 数据 库 ( 以 及 其 他 
任何 东西 ) 暴露 在 原始 用 户 输 入 的 “火力 范围 ”内 ， 除 非 你 对 这 样 做 的 后 果 心 知 肚 明 。 
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13.3 小 结 


本 章 简要 地 介绍 了 如 何 创 建 与 关系 型 数据 库 交 互 的 Python 程 序 。 之 所 以 只 做 简要 的 介绍 ， 是 
因为 如 果 你 掌握 了 Python 和 SQL, 就 很 容易 掌握 它们 之 间 的 桥梁 一 一 Python DB API。 下 面 是 本 章 
介绍 的 一 些 概 念 。 

口 Python DB API: 这 个 API 定 义 了 一 个 简单 的 标准 化 接口 ， 所 有 数据 库 包 装 器 模块 都 必须 

遵循 它 ， 这 让 编写 使 用 多 个 不 同 数据 库 的 程序 更 容易 。 

口 连接 : 连接 对 象 表示 到 SQL 数据 库 的 通信 链 路 ,使 用 方法 cursor 可 从 连接 获得 游标 。 你 还 

可 使 用 连接 对 象 来 提交 或 回 滚 事 务 。 使 用 完 数据 库 后 ， 就 可 将 连接 关闭 了 。 

口 游标 : 游标 用 于 执行 查询 和 查看 结果 。 可 逐 行 取 回 查询 结果 ， 也 可 一 次 取 回 很 多 (或 全 

部 ) 行 。 

口 类 型 和 特殊 值 : DB API 指 定 了 一 组 构造 函数 和 特殊 值 的 名 称 。 构 造 函 数 用 于 处 理 日 期 和 
时 间 对 象 ， 还 有 二 进 制 数据 对 象 ， 而 特殊 值 用 于 表示 关系 型 数据 库 的 类 型 ， 如 STRING、 
NUMBER 和 DATETIME 。 

口 SQLite: 这 是 一 个 小 型 的 仍 入 式 SQL 数据 库 ， 标 准 Python 发 行 版 中 包含 其 Python 包装 器 ， 
即 模块 sqlite3。 这 个 数据 库 速 度 快 、 易 于 使 用 ， 且 不 要 求 搭建 专门 的 服务 器 。 


13.3.1 ”本章 介绍 的 新 函数 


函数 描述 
connect( > ) 连接 到 数据 库 并 返回 一 个 连接 对 象 " 


































































































13.3.2 “预告 


持久 化 和 数据 库 处 理 是 很 多 ( 乃至 大 部 分 ) 大 型 程序 和 系统 的 重要 组 成 部 分 。 很 多 大 型 程序 
和 系统 都 包含 的 男 一 个 组 成 部 分 是 网 络 ， 这 将 在 下 一 章 讨 论 。 

















JD 函数 connect 的 参数 随 数 据 库 而 异 。 





网 络 编程 




















本 章 将 通过 示例 展示 如 何 使 用 Python 来 编写 以 各 种 方式 使 用 网 络 ( 如 互联 网 ) 的 程序 。Python 
提供 了 强大 的 网 络 编程 支持 ,有 很 多 库 实 现 了 常见 的 网 络 协议 以 及 基于 这 些 协议 的 抽象 层 , 让 你 
能 够 专注 于 程序 的 逻辑 ， 而 无 需 关 心 通过 线路 来 传输 比特 的 问题 。 另 外 ， 对 于 有 些 协议 格式 ， 可 
能 没有 处 理 它们 的 现成 代码 , 但 编写 起 来 也 很 容易 ， 因 为 Python 很 擅长 处 理 字 节 流 中 的 各 种 模式 
(从 本 书 前面 介 绍 的 各 种 处 理 文本 文件 的 方式 中 ， 你 可 能 领教 了 这 一 点 )。 

鉴于 Python 提供 的 网 络 工具 众多 ,这 里 只 能 简要 地 介绍 它 的 网 络 功能 。 在 本 书 的 其 他 地 方 也 
有 一 些 这 样 的 示例 。 例 如 ， 第 1$ 章 将 讨论 面向 Web 的 网 络 编程 ， 本 书后 面 介 绍 的 几 个 项 目 也 使 用 
了 网 络 模块 来 完成 任务 。 要 更 深入 地 了 解 Python 网 络 编程 , 推 荐 你 阅读 John Goerzen 的 著作 《 Python 
网 络 编程 基础 》 其 中 非常 详尽 地 讨论 了 这 个 主题 。 

本 章 首 先 概述 Python 标准 库 中 的 一 些 网 络 模块 。 然 后 讨论 SocketServer 和 相关 的 类 ， 并 介绍 
地 介绍 同时 处 理 多 个 连接 的 各 种 方法 。 最 后 ,简单 地 说 一 说 Twisted， 这 是 一 个 使 用 Python 编写 网 
络 程序 的 框架 ， 功 能 丰富 而 成 熟 。 
























































注意 ”如 果 你 的 计算 机 上 安装 了 严格 的 防火 墙 ， 每 当 你 开始 运行 自己 编写 的 网 络 程序 时 ， 它 都 
可 能 发 出 警告 ， 并 禁止 程序 连接 到 网 络 。 你 应 对 防火 墙 进行 配置 ， 让 它 允 许 Python 完 成 
其 工作 。 如 果 防 火 墙 有 交互 式 接 口 ， 只 需 在 询问 时 允许 建立 连接 即 可 。 然 而 ， 需 要 注意 
的 是 ， 任 何 连接 到 网 络 的 软件 都 是 安全 隐患 ， 即 便 是 你 自己 编写 的 软件 亦 如 此 (或 者 说 
尤其 如 此 )。 


14.1 ” 几 个 网 络 模 块 


标准 库 中 有 很 多 网 络 模块 ， 其 他 地 方 也 有 不 少 。 有 些 网 络 模块 明显 主要 是 处 理 网 络 的 ,但 还 
有 几 个 其 实 也 是 与 网 络 相关 的 ,如 处 理 各 种 数据 编码 以 便 通 过 网 络 传输 的 模块 。 这 里 精 挑 细 选 了 
几 个 模块 进行 介绍 。 














14.1.1 模块 socket 
网 络 编程 中 的 一 个 基本 组 件 是 套 接 字 ( socket )。 套 接 字 基本 上 是 一 个 信息 通道 ， 两 端 各 有 一 
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个 程序 。 这 些 程序 可 能 位 于 (通过 网 络 相 连 的 ) 不 同 的 计算 机 上 ， 通 过 套 接 字 向 对 方 发 送信 息 。 
在 Python 中 ， 大 多 数 网 络 编程 都 隐藏 了 模块 socket 的 基本 工作 原理 ， 不 与 套 接 字 直 接 交 互 。 

套 接 字 分 为 两 类 : 服务 器 套 接 字 和 客户 端 套 接 字 。 创 建 服务 器 套 接 字 后 ， 让 它 等 待 连接 请 求 
的 到 来 。 这 样 ， 它 将 在 某 个 网 络 地 址 ( 由 IP 地 址 和 端口 号 组 成 ) 处 监听 ， 直 到 客户 端 套 接 字 建 立 
连接 。 随 后 ， 客 户 端 和 服务 器 就 能 通信 了 。 
客户 端 套 接 字 处 理 起 来 通常 比 服务 器 端 套 接 字 容易 些 , 因为 服务 器 必须 准备 随时 处理 客户 端 
连接 ,还 必须 处 理 多 个 连接 ; 而 客户 端 只 需 连 接 ， 完 成 任务 后 再 断 开 连接 即 可 。 本 章 后 面 将 介绍 
如 何 使 用 SocketServer 等 类 和 Twisted 框 架 进 行 服务 器 端 编 程 。 
套 接 字 是 模块 socket 中 socket 类 的 实例 。 实 例 化 套 接 字 时 最 多 可 指定 三 个 参数 : 一 个 地 址 族 
(默认 为 socket.AF_ INET ); 是 流 套 接 字 ( socket .SOCK_STREAM， 默 认 设置 ) 还 是 数据 报 套 接 字 
(socket .SOCK_DGRAM ); 协议 (使 用 默认 值 0 就 好 )。 创建 普 通 套 接 字 时 ， 不 用 提供 任何 参数 。 

服务 器 套 接 字 先 调用 方法 bind， 再 调用 方法 1isten 来 监听 特定 的 地 址 。 然 后 ， 客 户 端 套 接 字 
就 可 连接 到 服务 器 了 ， 办 法 是 调用 方法 connect 并 提供 调用 方法 bind 时 指定 的 地 址 (在 服务 器 端 ， 
可 使 用 函数 socket .gethostname 获 取 当 前 机 器 的 主机 名 )。 这 里 的 地 址 是 一 个 格式 为 (host，port ) 
的 元 组 ， 其 中 host 是 主机 名 (如 www.example.com )， 而 port 是 端口 号 (一 个 整数 )。 方 法 1isten 接 
受 一 个 参数 一 一 待 办 任务 清单 的 长 度 ( 即 最 多 可 有 多 少 个 连接 在 队列 中 等 待 接纳 , 到达 这 个 数量 
后 将 开始 拒绝 连接 )。 

服务 器 套 接 字 开始 监听 后 ， 就 可 接受 客户 端 连接 了 ， 这 是 使 用 方法 accept 来 完成 的 。 这 个 方 
法 将 阻 断 〈 等 待 ) 到 客户 端 连 接 到 来 为 止 ， 然 后 返回 一 个 格式 为 (client, address) 的 元 组 ， 其 中 
client 是 一 个 客户 端 套 接 字 ， 而 address 是 前 面 解 释 过 的 地 址 。 服 务 器 能 以 其 认为 合适 的 方式 处 
理 客 户 端 连接 , 然后 再 次 调用 accept 以 接着 等 待 新 连接 到 来 。 这 通常 是 在 一 个 无 限 循环 中 完成 的 。 
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注意 这 里 讨论 的 服务 器 编程 形式 称 为 阻 断 ( 同步 ) 网 络 编程 。 在 14.3 节 ， 你 将 看 到 非 阻 断 〈 异 
步 ) 网 络 编程 示例 ， 以 及 如 何 使 用 线程 来 同时 处 理 多 个 客户 端 。 


为 传输 数据 ， 套 接 字 提 供 了 两 个 方法 : send 和 recv ( 表示 receive )。 要 发 送 数据 ， 可 调用 方 
法 send 并 提供 一 个 字符 串 ; 要 接收 数据 ， 可 调用 recv 并 指定 最 多 接收 多 少 个 字 节 的 数据 。 如 果 不 
确定 该 指定 什么 数字 ，1024 是 个 不 错 的 选择 。 

代码 清单 14-1 和 14-2 展 示 了 最 简单 的 客户 端 程序 和 服务 器 程序 。 如 果 在 同一 台 机 器 上 运行 它们 
( 先 运行 服务 器 程序 )， 服 务 器 程序 将 打印 一 条 收 到 连接 请 求 的 消息 ， 然 后 客户 端 程序 将 打印 它 从 服 
务 器 那里 收 到 的 消息 ,在 服务 器 还 在 运行 时 ,可 运行 多 个 客户 端 ,在 客户 端 程序 中 ,通过 将 gethostname 
调用 替换 为 服务 器 机 器 的 主机 名 ， 可 分 别 在 两 台 通过 网 络 连 接 的 机 器 上 运行 这 两 个 程序 。 









































注意 可 使 用 的 端口 号 通常 受到 限制 。 在 Linux 或 UNIX 系 统 中 , 需要 有 管理 员 权 限 才 能 使 用 1024 
以 下 的 端口 号 。 这 些 编号 较 小 的 端口 是 供 标准 服务 使 用 的 。 例 如 ， 端 口 80 供 Web 服 务 器 
使 用 。 另 外 ， 使 用 Ctrl+C 停 止 服务 器 后 ， 可 能 需要 等 待 一 段 时 间 才 能 使 用 该 服务 器 原来 
使 用 的 端口 (否则 ， 可 能 出 现 “ 地 址 已 被 占用 ”错误 消息 )。 





244 第 14 章 网 络 编程 





代码 清单 14-1 最 简单 的 服务 器 
import socket 


s = socket.socket() 


host = socket.gethostname() 
port = 1234 
s.bind((host, port)) 


s.listen(5) 
while True: 


c, addr = s.accept() 
print('Got connection from', addr) 


c.send('Thank you for connecting') 
c.close() 


代码 清单 14-2 ”最 简单 的 客户 端 
import Socket 
s = socket.socket() 


host 
port 


socket.gethostname() 
1234 


s.connect((host, port)) 

print(s.recv(1024)) 

有 关 模 块 socket 的 更 详细 信息 ,请 参阅 “Python 库 参考 手册 ”以 及 Gordon McMillan 撰 写 的 文 
章 “Socket Programming HOWTO”( http://docs.python.org/dev/howto/sockets.html )。 





14.1.2 ”模块 urllib 和 urll1ib2 


在 可 供 使 用 的 网 络 库 中 ，urllib 和 urllib2 可 能 是 投入 产 出 比 最 高 的 两 个 。 它 们 让 你 能 够 通 
过 网 络 访问 文件 ， 就 像 这 些 文件 位 于 你 的 计算 机 中 一 样 。 只 需 一 个 简单 的 函数 调用 ， 就 几乎 可 将 
统一 资源 定位 符 (URL ) 可 指向 的 任何 动作 作为 程序 的 输入 。 想 想 将 这 种 功能 与 模块 re 结合 起 来 
使 用 都 能 做 什么 吧 ! 你 可 下 载 网 页 、 从 中 提取 信息 并 自动 生成 研究 报告 。 

模块 urllib 和 urllib2 的 功能 差不多 ， 但 urllib2 更 好 一 些 。 对 于 简单 的 下 载 ，urllib 绰 绰 有 
余 。 如 果 需 要 实现 HTTP 身 份 验 证 或 Cookie， 抑 或 编写 扩展 来 处 理 自己 的 协议 ，urllib2 可 能 是 更 
好 的 选择 。 

1. 打开 远程 文件 

几乎 可 以 像 打 开本 地 文件 一 样 打 开 远 程 文件 ， 差 别 是 只 能 使 用 读 取 模式 ， 以 及 使 用 模块 
urllib.request 中 的 函数 urlopen， 而 不 是 open (或 file )。 


>>> from urllib.request import urlopen 
>>> webpage = urlopen('http://www.python.org') 


如 果 连 接 到 了 网 络 , 变量 webpage 将 包含 一 个 类 似 于 文件 的 对 象 , 这 个 对 象 与 网 页 http://www. 
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python.org 相 关联 。 


注意 要 在 没有 联网 的 情况 下 尝试 使 用 模块 Urllib,， 可 使 用 以 file: 打 头 的 URL 访 问 本 地 文件 ， 如 
file:c:\text\somefile.txt ( 别 忘 了 对 反 斜 杠 进行 转 义 )。 


urlopen 返 回 的 类 似 于 文件 的 对 象 支 持 方法 close、tead 、readline 和 readlines， 还 支持 迭 
代 等 。 

假设 要 提取 刚才 所 打开 网 页 中 链接 About 的 相对 URL， 可 使 用 正则 表达 式 (有 关 正 则 表达 式 
的 详细 信息 ， 请 参阅 10.3.8 节 )。 


>>> import re 

>>> text = webpage.read() 

>>> m = fe.Ssearch(b'<a href="([^"]+)" .*?>about</a>', text, re.IGNORECASE) 
>>> m.group(1) 

'/about/" 


注意 ”当然 ， 如 果 这 个 网 页 发 生 了 变化 ， 你 可 能 需要 修改 使 用 的 正则 表达 式 。 


2. 获取 远程 文件 

函数 urlopen 返 回 一 个 类 似 于 文件 的 对 象 ， 可 从 中 读 取 数据 。 如 果 要 让 urllib 替 你 下 载 文件 ， 
并 将 其 副本 存储 在 一 个 本 地 文件 中 ， 可 使 用 urlretrieve。 这 个 函数 不 返回 一 个 类 似 于 文件 的 对 
象 ， 而 返回 一 个 格式 为 (filename，headers) 的 元 组 ， 其 中 filename 是 本 地 文件 的 名 称 (由 urllib 
自动 创建 ) 而 headers 包 含 一 些 有 关 远 程 文件 的 信息 (这 里 不 会 介绍 headers, 如 果 你 想 更 深入 地 
了 解 它 ， 请 在 有 关 urllib 的 标准 库 文档 中 查找 urlretrieve )。 如 果 要 给 下 载 的 副本 指定 文件 名 ， 
可 通过 第 二 个 参数 来 提供 。 

urlretrieve('http://www.python.org', 'C:\\python webpage.html') 

这 将 获取 Python 官 网 的 主页 , 并 将 其 存储 到 文件 C:\python_webpage.html 中 。 如 果 你 没有 指定 
文件 名 ,下 载 的 副本 将 放 在 某 个 临时 位 置 ， 可 使 用 函数 open 来 打开 。 但 使 用 完毕 后 ,你 可 能 想 将 
其 删除 , 以 免 占 用 磁盘 空间 。 要 清空 这 样 的 临时 文件 , 可 调用 函数 urlcleanup 且 不 提供 任何 参数 ， 
它 将 负责 替 你 完成 清空 工作 。 


一 些 实用 的 函数 


除了 通过 URL 读 取 和 下 载 文件 外 ，urllib 还 提供 了 一 些 用 于 操作 URL 的 函数 ， 如 
下 所 示 (这 里 假设 你 对 URL 和 CGI 略 知 一 二 )。 
口 quote(string[，safe]): 返回 一 个 字符 串 ， 其 中 所 有 的 特殊 字符 〈 在 URL 中 有 特殊 意义 
的 字符 ) 都 已 替换 为 对 URL 友 好 的 版 本 ( 如 将 ~ 替换 为 %7E )。 如 果 要 将 包含 特殊 字符 的 
字符 事 用 作 URL， 这 很 有 用 。 参 数 safe 是 一 个 字符 串 ( 默认 为 '/' )， 包 含 不 应 像 这 样 对 
其 进行 编码 的 字符 。 
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口 quote_plus(string[，safe]): 类 似 于 quote， 但 也 将 空格 替换 为 加 号 。 
口 unquote(string): 与 quote 相 反 。 
口 unquote plus(string): 与 quote_ plus 相反 。 





urlencode(query[，doseq]): 将 映射 (如 字典 ) 或 由 包含 两 个 元 素 的 元 组 〈 形 如 (key， 
value) ) 组 成 的 序列 转换 为 “使 用 URIL 编 码 的 ”字符 串 。 这 样 的 字符 串 可 用 于 CGI 查询 中 ( 详 





14.1.3 ”其 他 模块 


前 面 说 过 ， 除 了 这 里 讨论 的 模块 外 ，Python 库 等 地 方 还 包含 很 多 与 网 络 相 关 的 模块 。 表 14-1 
列 出 了 Python 标准 库 中 的 一 些 与 网 络 相关 的 模块 。 正 如 该 表 指 出 的 ， 其 中 有 些 模块 将 在 本 书 的 其 
他 地 方 讨论 。 

表 14-1 ”标准 库 中 一 些 与 网 络 相关 的 模块 
模 块 描 述 
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asynchat 包含 补充 asyncore 的 功能 (参见 第 24 章 ) 
asyncore 异步 套 接 字 处理 程序 ( 参见 第 24 章 ) 
cgi 基本 的 CGI 支持 ( 参见 第 15 章 ) 
Cookie Cookie 对 象 操作 ， 主 要 用 于 服务 器 
cookielib 客户 端 Cookie 支 持 

email 电子 邮件 ( 包括 MIME ) 支持 
ftplib FTP 客 户 端 模 块 

gopherlib Gopher 客 户 端 模块 

httplib HTTP 客户 端 模块 

imaplib IMAP4 客 户 端 模块 

mailbox 读 取 多 种 邮箱 格式 

mailcap 通过 mailcap 文 件 访问 MIME 配 置 
mhlib 访问 MH 邮箱 

nntplib NNTP 客 户 端 模块 ( 参见 第 23 章 ) 
poplib POP 客 户 端 模块 

robotparser 解析 Web 服 务 器 robot 文 件 


SimpleXMLRPCServer 








一 个 简单 的 XML-RPC 服 务 器 (参见 第 27 章 ) 























smtpd SMTP 服 务 器 模块 

smtplib SMTP 客 户 端 模块 

telnetlib Telnet 客 户 端 模块 

urlparse 于 解读 URL 

xmlrpclib XML-RPC 客 户 端 广 持 ( 参见 第 27 章 ) 











14.2 ”SocketServez 及 相关 的 类 


从 14.1.1 节 可 知 ， 编 写 简单 的 套 接 字 服 务 器 并 不 难 。 然 而 ， 如 果 要 创建 的 
还 是 求助 于 服务 器 模块 吧 。 模 块 SocketServer 是 标准 库 提供 的 服务 器 框架 的 基 









































并 非 简单 服务 器 ， 
石 ， 这 个 框架 包括 





BaseHTTPServer 、SimpleHTTPServer 、CGIHTTPServer 、SimpleXMLRPCServer 和 DocXMLRPCServer 等 服 


务 器 ， 它 们 在 基本 服务 器 的 基础 上 添加 了 各 种 功能 。 





SocketServeT 包 含 4 个 基本 的 服务 器 : TcPServer ( 支持 TCP 套 接 字 流 )、UDPServer ( 支持 UDP 
数据 报 套 接 字 ) 以 及 更 难 懂 的 UnixStreamServer 和 UnixDatagramServer。 后 面 3 个 你 可 能 不 会 用 到 。 





使 用 模块 SocketServer 编 写 服务 器 时 ， 大 部 分 代码 都 位 于 请 求 处 理 需 中 。 











每 当 服 务 器 收 到 客 


户 端的 连接 请 求 时 ,都 将 实例 化 一 个 请 求 处 理 程序 ,并 对 其 调用 各 种 处 理 方法 来 处 理 请 求 。 具 体 

















调用 哪些 方法 取决 于 使 用 的 服务 器 类 和 请 求 处 理 程序 类 ; 还 可 从 这 些 请 求 处 到 


LE 如 类 派生 出 子 类 ， 











从 而 让 服务 器 调用 一 组 自 定义 的 处 理 方法 。 基 本 请 求 处 理 程序 类 BaseRequestHandler 将 所 有 操作 
都 放 在 一 个 方法 中 一 一 服务 器 调用 的 方法 handle。 这 个 方法 可 通过 属性 self.request 来 访问 客户 
端 套 接 字 。 如 果 处 理 的 是 流 (使 用 TCPServer 时 很 可 能 如 此 )， 可 使 用 streamRequestHandler 类 ， 























它 包 含 另 外 两 个 属性 : self.rfile (用 于 读 取 ) 和 self.wfile (用 于 写 入 )。 你 
于 文件 的 对 象 来 与 客户 端 通信 。 








可 使 用 这 两 个 类 似 


模块 socketserver 还 包含 很 多 其 他 的 类 ， 它 们 为 HTTP 服 务 器 提供 基本 的 支持 ( 如 运行 CGI 





脚本 )， 以 及 XML-RPC 支 持 (这 将 在 第 27 章 讨论 )。 


代码 清单 14-3 是 代码 清单 14-1 所 示 极 简 服 务 器 的 SocketServer 版 本 ， 可 与 代码 清单 14-2 所 示 





的 客户 端 协同 工作 。 请 注意 ，StreamRequestHandler 负 责 在 使 用 完 连 接 后 将 其 
名 表示 运行 该 服务 器 的 计算 机 。 
代码 清单 14-3 ”基于 SocketServer 的 极 简 服务 器 


from socketserver import TCPServer, StreamRequestHandler 
class Handler(StreamRequestHandler): 


def handle(self): 
addr = self.request.getpeername() 
print('Got connection from', addr) 
self.wfile.write('Thank you for connecting') 


server = TCPServer(('', 1234), Handler) 
server.serve forever() 





关闭 。 男 外 ， 主 机 


有 关 模 块 SocketServer 的 详细 信息 ， 请 参阅 “Python 库 参考 手册 ”以 及 John Goerzen 的 著作 


《Python 网 络 编程 基础 》。 
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前 面 讨 论 的 服务 器 解决 方案 都 是 同步 的 : 不 能 同时 处 理 多 个 客户 端的 连接 请 求 。 如果 连接 持 


248 第 14 章 网 络 编程 





续 的 时 间 较 长 ， 比 如 完整 的 聊天 会 话 ， 就 需要 能 够 同时 处理 多 个 连接 。 
处 理 多 个 连接 的 主要 方式 有 三 种 : 分 义 ( forking )、 线 程 化 和 异步 WO 。 通 过 结合 使 月 














SocketServer 中 的 混合 类 和 服务 器 类 ， 很 容易 实现 分 又 和 线程 化 〈 参 见 代 码 清单 14-4 和 14-5 )。 只 
便 不 使 用 这 些 类 ， 这 两 种 方式 也 很 容易 实现 。 然 而 ， 它 们 确实 存在 缺点 。 分 又 占用 的 资源 较 多 





j 


?9 


且 在 客户 端 很 多 时 可 伸缩 性 不 佳 ( 但 只 要 客户 端 数量 适中 , 分 又 在 现代 UNIX 和 Linux 系 统 中 的 歼 
率 很 高 。 如 果 系 统 有 多 个 CPU， 效 率 就 更 高 了 ); 而 线程 化 可 能 带 来 同步 问题 。 这 里 不 深入 讨论 




















这 些 问 题 ， 只 演示 如 何 使 用 这 些 方式 。 


分 又 和 线程 是 什么 


你 可 能 不 知道 分 又 和 线程 是 什么 ， 这 里 简单 地 说 说 。 分 又 是 一 个 UNIX 术 语 。 对 进程 ( 运 
行 的 程序 ) 进 行 分 又 时 ， 基 本 上 是 复制 它 ， 而 这 样 得 到 的 两 个 进程 都 将 从 当前 位 置 开始 继续 往 
下 执行 ， 且 每 个 进程 都 有 自己 的 内 存 副本 ( 变量 等 ) 。 原 来 的 进程 为 父 进程 ， 复 制 的 进程 为 子 
进程 。 如 果 你 是 科幻 小 说 迷 ， 可 将 它们 视 为 并 行 的 宇宙 : 分 又 操作 在 时 间 轴 上 创建 一 个 分 
支 ， 最 终 得 到 两 个 独立 存在 的 宇宙 ( 进程 )。 所 幸 进 程 能 够 判断 它们 是 原始 进程 还 是 子 进程 ( 通 
常 查看 函数 fork 的 返回 值 ) ， 因 此 能 够 执行 不 同 的 操作 。 ( 如 果 不 能 ， 两 个 进程 将 做 同样 的 事 
情 ， 这 除了 让 计算 机 陷入 停顿 外 还 有 什么 意义 ? ) 

在 分 又 服务 器 中 ， 对 于 每 个 客户 端 连接 ， 都 将 通过 分 又 创建 一 个 子 进程 。 父 进程 继续 监 
听 新 连接 ， 而 子 进 程 负责 处 理 客户 端 请 求 。 客 户 端 请 求 结束 后 ， 子 进程 直接 退出 。 由 于 分 又 
出 来 的 进程 并 行 地 运行 ， 因 此 客户 端 无 需 等 待 。 

鉴于 分 又 占用 的 资源 较 多 (每 个 分 又 出 来 的 进程 都 必须 有 自己 的 内 存 ) ， 还 有 另 一 种 解决 
方案 : 线程 化 。 线 程 是 轻 量 级 进程 ( 子 进 程 ) ， 都 位 于 同一 个 进程 中 并 共享 内 存 。 这 减少 了 占 
用 的 资源 ， 但 也 带 来 了 一 个 缺点 : 由 于 线程 共享 内 存 ， 你 必须 确保 它们 不 会 彼此 干扰 或 同时 
修改 同一 项 数据 ， 否 则 将 引起 混乱 。 这 些 问题 都 属于 同步 问题 。 在 现代 操作 系统 ( 不 支持 分 又 
的 Windows 除 外 ) 中 ， 分 又 的 速度 其 实 非常 快 ， 较 新 的 硬件 能 够 更 好 地 应 付 其 资源 消耗 。 如 果 
你 不 想 处 理 麻烦 的 同步 问题 ， 分 又 可 能 是 不 错 的 选择 。 

然而 ， 如 果 能 够 完全 杜绝 并 行 性 ， 就 再 好 不 过 了 。 在 本 章 中 ， 将 介绍 基于 函数 select 的 其 
他 解决 方案 。 另 一 种 避免 线程 和 分 又 的 办 法 是 使 用 StacklessPython ( http://stackless.com ) ， 它 是 
一 个 能 够 快速 而 轻松 地 在 不 同上 下 文 之 间 切 换 的 Python 版 本 。 它 支持 一 种 类 似 于 线程 的 并 行 方 
式 ， 名 为 微 线 程 ， 其 可 伸缩 性 比 真正 的 线程 高 得 多 。 例 如,“ 星 战 前 夜 在 线 ” ( EVEOnline， 
http:/www.eve-online.com ) 用 Stackless Python 微 线程 为 数 以 千 计 的 用 户 提供 服务 。 

在 较 低 的 层次 实现 异步 JO 要 难 一 些 ， 其 基本 机 制 是 模块 select 中 的 函数 select (将 在 
14.3.2 节 介绍 ) ， 使 用 起 来 非常 坏 手 。 幸 运 的 是 ， 有 用 于 实现 异步 JO 的 高 级 框架 ， 让 你 能 够 通 
过 简单 而 抽象 的 接口 使 用 可 伸缩 的 强大 机 制 。 标 准 库 提 供 了 一 个 这 样 的 基本 框架 ， 由 模块 
asyncore 和 asynchat 组 成 ， 将 在 第 24 章 讨论 。 本 章 后 面 将 讨论 的 Twisted 是 一 个 非常 强大 的 异 
步 网 络 编程 框架 。 
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14.3.1 使 用 SocketServer 实现 分 又 和 线程 化 


使 用 框架 socketServer 创 建 分 又 或 线程 化 服务 顺 非 常 简单 ， 几 乎 不 需要 任何 解释 。 代 码 清单 
14-4 和 14-5 分 别 演 示 了 如 何在 代码 清单 14-3 所 示 的 服务 器 中 实现 分 又 和 线程 化 。 仅 当 方 法 handle 
需要 很 长 时 间 才 能 执行 完毕 时 ,分 又 和 线程 化 才能 提供 帮助 。 请 注意 ，Windows 不 支持 分 义 。 
代码 清单 14-4 ”分 叉 服务 器 


from socketserver import TCPServer, ForkingMixIn, StreamRequestHandler 




















class Server(ForkingMixIn, TCPServer): pass 
class Handler(StreamRequestHandler): 


def handle(self): 
addr = self.request.getpeername() 
print('Got connection from', addr) 
self.wfile.write('Thank you for connecting') 


server = Server(('', 1234), Handler) 
server.serve forever() 


代码 清单 14-5 ”线程 化 服务 器 


from socketserver import TCPServer, ThreadingMixIn, StreamRequestHandler 
class Server(ThreadingMixIn, TCPServer): pass 
class Handler(StreamRequestHandler): 


def handle(self): 
addr = self.request.getpeername() 
print('Got connection from', addr) 
self.wfile.write('Thank you for connecting') 


server = Server(('', 1234), Handler) 
server.serve forever() 


14.3.2 ”使 用 select 和 poll 实现 异步 |/O 


当 服 务 器 与 客户 端 通信 时 , 来 自 客 户 端的 数据 可 能 时 断 时 续 。 如 果 使 用 了 分 又 和 线程 化 , 这 
就 不 是 问题 : 因为 一 个 进程 (线程 ) 等 待 数据 时 ， 其 他 进程 (线程 ) 可 继续 处 理 其 客户 端 。 然 而 ， 
另 一 种 做 法 是 只 处 理 当 前 正在 通信 的 客户 端 。 你 甚至 无 需 不 断 监听 ， 只 需 监听 后 将 客户 端 加 入 队 
列 即 可 。 

这 就 是 框架 asyncore/asynchat〈 人 参见 第 24 章 ) 和 Twisted (参见 14.4 节 ) 采取 的 方法 。 这 种 功 4 
能 的 基石 是 函数 select 或 poll ( 如 果 系 统 支持 )。 这 两 个 函数 都 位 于 模块 select 中 ,其 中 pol11 的 可 
伸缩 性 更 高 ， 但 只 有 UNIX 系 统 支持 它 ( Windows 不 支持 )。 
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函数 select 接 受 三 个 必 不 可 少 的 参数 和 一 个 可 选 参数 ， 其 中 前 三 个 参数 为 序列 ， 而 第 四 个 参 
数 为 超时 时 间 ( 单位 为 秒 )。 这 些 序列 包含 文件 描述 符 整 数 ( 也 可 以 是 这 样 的 对 象 : 包含 返回 文 
件 描述 符 整 数 的 方法 fileno )， 表 示 我 们 正在 等 待 的 连接 。 这 三 个 序列 分 别 表示 需要 输入 和 输出 
以 及 发 生 异 常 ( 错误 等 ) 的 连接 。 如 果 没 有 指定 超时 时 间 ，select 将 阻 断 ( 即 等 待 ) 到 有 文件 描 
述 符 准备 就 绪 ; 如 果 指 定 了 超时 时 间 , select 将 最 多 阻 断 指 定 的 秒 数 ; 如 果 超 时 时 间 为 零 , select 
将 不 断 轮 询 ( 即 不 阻 断 )。select 返 回 三 个 序列 〈 即 一 个 长 度 为 3 的 元 组 )， 其 中 每 个 序列 都 包含 
相应 参数 中 处 于 活动 状态 的 文件 描述 符 。 例 如 , 返回 的 第 一 个 序列 包含 有 数据 需要 读 取 的 所 有 输 
入 文件 描述 符 。 

这 些 序 列 也 可 包含 文件 对 象 ( Windows 不 支持 ) 或 套 接 字 。 代 码 清单 14-6 所 示 的 服务 器 使 用 
select 来 为 多 个 连接 提供 服务 。( 请 注意 , 将 服务 器 套 接 字 传 递 给 了 select, 让 select 能 够 在 有 新 
连接 到 来 时 发 出 信号 。) 这 个 服务 器 是 一 个 简单 的 日 志 程 序 ， 将 来 自 客 户 端的 数据 都 打印 出 来 。 
要 进行 测试 ,可 使 用 telnet 连 接 到 它 ， 也 可 通过 编写 一 个 基于 套 接 字 的 简单 客户 端 来 向 它 发 送 数 
据 。 尝 试 使 用 telnet 建 立 多 个 到 该 服务 器 的 连接 ,核实 它 能 够 同时 处 理 多 个 客户 端 ( 虽然 这 样 输 
出 的 日 志 中 将 混杂 多 个 客户 端的 输入 )。 


代码 清单 14-6 ”使 用 select 的 简单 服务 器 


import socket, select 





















































s = socket.socket() 


host = socket.gethostname() 
port = 1234 
s.bind((host, port)) 
s.listen(5) 
inputs = [s] 
while True: 
rs, Wws, es = select.select(inputs, [], [1]) 
for r in rs: 
if r is s: 
c, addr = s.accept() 
print('Got connection from', addr) 
inputs.append(c) 
else: 
ry: 
data = r.recv(1024) 
disconnected = not data 
except socket.error: 
disconnected = True 


if disconnected: 
print(r.getpeername(), 'disconnected') 
inputs.remove(r) 

else: 
print(data) 


方法 poll 使 用 起 来 比 select 容 易 。 调用 poll 时 , 将 返回 一 个 轮 询 对 象 。 你 可 使 用 方法 register 
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向 这 个 对 象 注册 文件 描述 符 ( 或 包含 方法 fileno 的 对 象 ), 注册 后 可 使 用 方法 unregister 将 它们 删 
除 。 注 册 对 象 ( 如 套 接 字 ) 后 ， 可 调用 其 方法 poll ( 它 接受 一 个 可 选 的 超时 时 间 参 数 )。 这 将 返 
回 一 个 包含 (fd，event) 元 组 的 列表 ( 可 能 为 空 )， 其 中 fd 为 文件 描述 符 ， 而 event 是 发 生 的 事件 。 
event 是 一 个 位 掩 码 , 这 意味 着 它 是 一 个 整数 , 其 各 个 位 对 应 于 不 同 的 事件 。 各 种 事件 是 用 select 
模块 中 的 常量 表示 的 ， 如 表 14-2 所 示 。 要 检查 指定 的 位 是 否 为 1( 即 是 否 发 生 了 相应 的 事件 )， 可 
下 面 这 样 使 用 按 位 与 运算 符 (&): 


if event & select.POLLIN: ... 












































表 14-2 select 模块 中 的 轮 询 事件 常量 

















事 件 名 描 述 
POLLIN 文件 描述 符 中 有 需要 读 取 的 数据 
POLLPRI 文件 描述 符 中 有 需要 读 取 的 紧急 数据 
POLLOUT 文件 描述 符 为 写 人 数据 做 好 了 准备 
POLLERR 文件 描述 符 出 现 了 错误 状态 
POLLHUP 挂 起 。 连 接 已 断 开 。 
POLLNVAL 无 效 请 求 。 连 接 未 打开 

















代码 清单 14-7 使 用 pol1 而 不 是 select 重 写 了 代码 清单 14-6 所 示 的 服务 器 。 请 注意 ， 我 添加 了 
一 个 从 文件 描述 符 〈 int ) 到 套 接 字 对 象 的 映射 (fdmap )。 


代码 清单 14-7 使 用 pol1 的 简单 服务 器 


import socket, select 
s = socket.socket() 


host = socket.gethostname() 
port = 1234 
s.bind((host, port)) 


fdmap = {s.fileno(): s} 


s.listen(5) 

p = select.poll() 
p.register(s) 
while True: 


events = p.poll() 
for fd, event in events: 
if fd in fdmap: 
c, addr = s.accept() 
print('Got connection from', addr) 
p.register(c) 
fdmap[c.fileno()] = < 
elif event & select.POLLIN: 
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data = fdmap[fd].recv(1024) 

if not data: # 没有 数据 -- 连 接 已 关闭 
print(fdmap[fd].getpeername(), 'disconnected') 
p.unregister(fd) 
del fdmap[fd] 

else: 
print(data) 


有 关 select 和 pol1 的 更 详细 信息 ， 请 参阅 “Python 库 参 考 手 册 ”( http://python.org/doc/lib/ 
module-select.html )。 另 外 ， 阅 读 标 准 库 模 块 asyncore 和 asynchat 的 源 代 码 (位 于 安装 的 Python 中 
的 文件 asyncore.py 和 asynchat.py 中 ) 也 能 获得 启迪 。 








14.4 Twisted 


Twisted 是 由 Twisted Matrix Laboratories ( http://twistedmatrix.com ) 开发 的 ， 这 是 一 个 事件 驱 
动 的 Python 网 络 框架 ， 最 初 是 为 编写 网 络 游戏 开发 的 ， 但 现 被 各 种 网 络 软件 使 用 。 在 Twisted 中 ， 
你 能 实现 事件 处 理 程序 ， 就 像 在 GUI 工具 包 (人 参见 第 12 章 ) 中 一 样 。 实 际 上 ，Twisted 与 多 个 常用 
的 GUI 工具 包 〈(Tk、GTK 、Qt 和 wxWidgets ) 配合 得 天 衣 无 缝 。 

本 节 介 绍 一 些 基 本 概念 , 并 演示 如 何 使 用 Twisted 完 成 一 些 简 单 的 网 络 编程 任务 。 掌握 这 些 基 
本 概念 后 ， 你 就 可 参考 Twisted 文 档 ( 可 在 Twisted 网 站 找到 ， 这 个 网 站 还 有 很 多 其 他 的 信息 ) 来 
完成 更 复杂 的 网 络 编程 。Twisted 是 一 个 功能 极其 丰富 的 框架 ,支持 Web 服 务 器 和 客户 端 、SSH2、 
SMTP、POP3、IMAP4、AIM、ICQ、IRC、MSN、Jabber、NNTP、DNS 等 | 



























































注意 编写 本 书 期 间 , 仅 当 使 用 的 是 Python 2 时 才能 使 用 Twisted 的 全 部 功能 , 但 这 个 框架 有 越 来 
越 多 的 功能 正在 被 移植 到 Python 3。 本 节 后 面 的 代码 示例 是 使 用 Python 2.7 编 写 的 。 


14.4.1 下 载 并 安装 Twisted 


Twisted 安 装 起 来 非常 容易 。 首 先 ， 访问 Twisted Matrix 网 站 ( http://twistedmatrix.com )， 并 单 
击 其 中 的 一 个 下 载 链 接 。 如 果 你 使 用 的 是 Windows， 请 根据 你 使 用 的 Python 版 本 下 载 相应 的 安装 
程序 。 如 果 你 使 用 的 是 其 他 操作 系统 ,请 下 载 源 代码 归档 文件 。( 如 果 你 使 用 了 包 管 理 器 Portage、 
RPM、APT、Fink 或 MacPorts, 可 直接 下 载 并 安装 Twisted。) Windows 安 装 程序 是 一 个 循序 渐进 的 
向 导 ， 不 用 多 解释 。 编 译 和 解压 缩 可 能 需要 点 时 间 ， 但 你 只 需 等 待 就 好 。 要 安装 源 代 码 归档 ， 
首先 需要 解压 缩 〈 先 使 用 tar， 再 根据 下 载 的 归档 文件 类 型 使 用 gunzip 或 bunzip2 )， 然 后 运行 脚 
本 Distutils。 

python setup.py install 


这 样 就 应 该 能 够 使 用 Twisted 了 。 
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14.4.2 ”编写 Twisted 服务 器 


本 章 前 面 编 写 的 简单 套 接 字 服 务 器 非常 清晰 , 其 中 有 些 包含 显 式 的 事件 循环 , 用 于 查找 新 连 
接 和 新 数据 。 基 于 SocketServer 的 服务 器 有 一 个 隐 式 的 循环 ， 用 于 查找 连接 并 为 每 个 连接 创建 处 
理 程序 ， 但 处 理 程序 必须 显 式 地 读 取 数据 。Twisted ( 与 第 24 章 将 讨论 的 框架 asyncore/asynchat 
一 样 ) 采 用 的 是 基于 事件 的 方法 。 要 编写 简单 的 服务 器 , 只 需 实 现 处 理 如 下 情形 的 事件 处 理 程序 : 
客户 端 发 起 连接 ， 有 数据 到 来 ， 客 户 端 断 开 连接 ( 以 及 众多 其 他 的 事件 )。 专 用 类 可 在 基本 类 的 
基础 上 定义 更 细致 的 事件 ， 如 包装 “数据 到 来 ”事件 ， 收 集 换行 符 之 前 的 所 有 数据 再 分 派 “数据 
行 到 来 ”事件 。 
































注意 ”有 一 个 Twisted 特 有 的 概念 本 节 没 有 介绍 , 那 就 是 延迟 对 象 ( deferred ) 和 延迟 执行 ( deferred 
execution )。 有 关 这 方面 的 详细 信息 ， 请 参阅 Twisted 文 档 (如 阅读 教程 “Deferreds are 
beautiful”， 这 可 在 Twisted 文 档 中 的 HOWTO 页 面 中 找到 )。 





事件 处 理 程序 是 在 协议 中 定义 的 。 你 还 需要 一 个 工厂 ， 它 能 够 在 新 连接 到 来 时 创建 这 样 
的 协议 对 象 。 如 果 你 只 想 创建 自 定义 协议 类 的 实例 ， 可 使 用 Twisted 自 带 的 工厂 一 一 模块 
twisted.internet.protocol 中 的 Factory 类 。 编 写 自 定义 协议 时 ， 将 模块 twisted.internet. 
protocol 中 的 Protocol 作 为 超 类 。 有 新 连接 到 来 时 ,将 调用 事件 处 理 程序 connectionMade; 连接 
中 断 时 ， 将 调用 connectionLost。 来 自 客户 端的 数据 是 通过 处 理 程序 dataReceived 接 收 的 。 当 然 ， 
你 不 能 使 用 事件 处 理 策略 来 向 客户 端 发 送 数据 。 这 种 工作 是 使 用 对 象 self.transport 完 成 的 ， 它 
包含 一 个 write 方 法 。 这 个 对 象 还 有 一 个 client 属 性 ， 其 中 包含 客户 端的 地 址 ( 主机 名 和 端口 )。 

代码 清单 14-8 是 代码 清单 14-6 和 14-7 所 示 服 务 器 的 Twisted 版 本 。 但 愿 你 也 认为 这 个 Twisted 版 
本 更 简单 些 ， 理 解 起 来 也 更 容易 。 在 这 个 版 本 中 ， 包 含 一 些 设置 工作 : 需要 实例 化 Factory， 并 
设置 其 属性 protocol， 让 它 知道 该 使 用 哪 种 协议 ( 这 里 是 一 个 自 定 义 协议 ) 与 客户 端 通信 。 

接 下 来 ,， 开始 监听 指定 的 端口 ， 让 工厂 通过 实例 化 协议 对 象 来 处 理 连接 。 为 此 ,调用 了 模块 
reactor 中 的 函数 listenTCP。 最 后 ， 通 过 调用 模块 reactor 中 子 数 run 启 动 这 个 服务 器 。 


代码 清单 14-8 ”使 用 Twisted 创 建 的 简单 服务 器 


from twisted.internet import reactor 
from twisted.internet.protocol import Protocol, Factory 




































































class SimpleLogger(Protocol): 


def connectionMade(self): 
print('Got connection from', self.transport.client) 








def connectionLost(self, reason): 
print(self.transport.client, 'disconnected') 


def dataReceived(self, data): 
print(data) 
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factory = Factory() 
factory.protocol = SimplelLogger 


reactor.listenTCP(1234, factory) 
reactor.run() 


如 果 使 用 telnet 连 接 到 这 个 服务 器 以 便 测试 它 , 每 行 输出 可 能 只 有 一 个 字符 ,是否 如 此 取决 
于 缓冲 等 因素 。 你 可 使 用 sys .sout.write 而 不 是 print, 但 在 很 多 情况 下 , 你 可 能 希望 每 次 得 到 一 
行 ， 而 不 是 得 到 随意 的 数据 。 为 此 ， 可 编写 一 个 自 定义 协议 ,尽管 这 很 容易 ,但 实际 上 有 一 个 提 
供 这 种 功能 的 现成 类 。 模 块 twisted.protocols.basic 包 含 几 个 预定 义 的 协议 ， 其 中 一 个 就 是 
LineReceiver。 它 实现 了 dataReceived， 并 在 每 收 到 一 整 行 后 调用 事件 处 理 程序 lineReceived。 
















































































提示 ”要 在 收 到 数据 后 做 些 除 调用 lineReceived ( 它 依赖 实现 了 dataReceived 的 LineReceiver ) 
外 的 其 他 事情 ， 可 使 用 LineReceiver 定 义 的 事件 处 理 程序 fawDataReceived。 


切换 到 协议 LineReceiver 需 要 做 的 工作 很 少 ， 如 代码 清单 14-9 所 示 。 如 果 查 看 运行 这 个 服务 
器 得 到 的 输出 ， 将 发 现 换 行 符 被 删除 了 。 换 而 言 之 ,使 用 print 不 能 再 生成 两 个 换行 符 。 
代码 清单 14-9 ”使 用 协议 LineReceiver 改 进 后 的 日 志 服 务 器 


from twisted.internet import reactor 
from twisted.internet.protocol import Factory 
from twisted.protocols.basic import LineReceiver 


class SimpleLogger(LineReceiver): 


def connectionMade(self): 
print('Got connection from', self.transport.client) 





def connectionLost(self, reason): 
print(self.transport.client, 'disconnected') 


def lineReceived(self, line): 
print(line) 











factory = Factory() 
factory.protocol = SimplelLogger 





reactor.listenTCP(1234, factory) 
reactor.run() 


前 面 说 过 ，Twisted 框 架 的 功能 比 这 里 介绍 的 要 多 得 多 。 如 果 你 要 更 深入 地 了 解 ， 可 参阅 
Twisted 网 站 http://twistedmatrix.com ) 的 在 线 文档 。 























本 章 简要 地 介绍 了 多 种 Python 网 络 编程 方法 ,选择 哪 种 方法 取决 于 具体 需求 和 你 的 偏好 。 选 
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举 一 种 方法 后 ， 你 很 可 能 需要 更 深入 地 学 习 。 下 面 是 本 章 介 绍 的 一 些 主题 。 











口 套 接 字 和 模块 socket : 套 接 字 是 让 程序 ( 进程 ) 能 够 通信 的 信息 通道 , 这 种 通信 可 能 需要 
通过 网 络 进行 。 模块 socket 让 你 能 够 在 较 低 的 层面 访问 客户 端 套 接 字 和 服务 器 套 接 字 。 服 























务 右 套 接 字 在 指定 的 地 址 处 监听 客户 端 连接 ， 而 客户 端 套 接 字 直接 连接 到 服务 器 。 
口 urllib 和 urllib2: 这 些 模块 让 你 能 够 从 各 种 服务 器 读 取 和 下 载 数 据 ， 为 此 你 只 需 提供 指 
向 数据 源 的 URL 即 可 。 模 块 urllib 是 一 种 比较 简单 的 实现 ， 而 urllib2 功 能 强大 、 可 扩展 























性 极 强 。 这 两 个 模块 都 通过 诸如 urlopen 等 函数 来 完成 工作 。 


口 框架 socketServer: 这 个 框架 位 于 标准 库 中 , 包含 一 系列 同步 服务 器 基 类 ， 让 你 能 够 轻松 























地 编写 服务 器 。 它 还 支持 使 用 CGI 的 简单 Web ( HTTP ) 服务 器 。 如 果 要 同时 处 理 多 个 连 
接 ， 必 须 使 用 支持 分 叉 或 线程 化 的 混合 类 。 


口 select 和 poll: 这 两 个 函数 让 你 能 够 在 一 组 连接 中 找 出 为 读 取 和 写 人 准备 就 绪 的 连接 。 这 
意味 着 你 能 够 以 循环 的 方式 依次 为 多 个 连接 提供 服务 ， 从 而 营造 出 同时 处 理 多 个 连接 的 


假象 。 另 外 ， 相 比 于 线程 化 或 分 又 ， 虽 
方案 的 可 伸缩 性 和 效率 要 高 得 多 。 



































然 使 用 这 两 个 函数 编写 的 代码 要 复杂 些 ， 但 解决 











口 Twisted: 这 是 Twisted Matrix Laboratories 开 发 的 一 个 框架 ， 功 能 丰富 而 复杂 ， 支 持 大 多 数 
主要 的 网 络 协议 。 虽 然 这 个 框架 很 大 上 且 其 中 使 用 的 一 些 成 例 看 起 来 匈 如 天 书 ， 但 其 基本 
用 法 简单 而 直观 。 框 架 Twisted 也 是 异步 的 ， 因 此 效率 和 可 伸缩 性 都 非常 高 。 对 很 多 自 定 
义 网 络 应 用 程序 来 说 ， 使 用 Twisted 来 开发 很 可 能 是 最 佳 的 选择 。 











14.5.1 ”本章 介绍 的 新 函数 














函 数 描 述 
urllib.urlopen(url[, data[, proxies]]) 根据 指定 的 URL 打 开 一 个 类 似 于 文件 的 对 象 
urllib.urlretrieve(url[,fnamel[ ,hook[,data]]]) 下 载 URL 指 定 的 文件 
urllib.quote(string[, safe]) 替换 特殊 的 URL 字 符 
urllib.quote plus(string[, safe]) 与 quote 一 样 ， 但 也 将 空格 替换 为 + 


urllib.unquote(string) 


urllib.unquote plus(string) 





urllib.urlencode(query[, doseq]) 


select.select(iseq, oseq, eseq[, timeout]) 





select.poll() 
reactor.listenTCP(port, factory) 


reactor.run() 


14.5.2 ”预告 




















与 quote 相 反 

与 quote_plus 相 反 

对 映射 进行 编码 ， 以 便 用 于 CGI 查询 中 
找 出 为 读 / 写 做 好 了 准备 的 套 接 字 
创建 一 个 轮 询 对 象 ， 用 于 轮 询 套 接 字 
监听 连接 的 Twisted 函 数 

启动 主 服务 器 循环 的 Twisted 函 数 
























































是 不 是 认为 对 网 络 编程 的 介绍 到 此 结束 了 ? 还 没有 。 下 一 章 将 讨论 网 络 世 界 中 为 人 熟知 的 专 


用 实体 一 一 Web。 


Python 和 Web 

















本 章 讨论 Python Web 编 程 的 一 些 方面 。Web 编 程 涉及 的 范围 极 广 ， 为 激发 你 的 学 习 兴 趣 ， 这 
里 挑选 了 其 中 三 个 重要 的 主题 : 屏幕 抓 取 、CGI 和 mod_ python。 

另外 还 给 出 了 一 些 指 南 ， 帮 助 你 寻找 适合 用 于 开发 更 复杂 的 Web 应 用 和 Web 服 务 的 工具 包 。 
有 关 详尽 的 CGI 使 用 示例 ， 请 参阅 第 25 章 和 第 26 章 。 有 关 Web 服 务 协 议 XML-RPC 的 使 用 示例 , 请 
参阅 第 27 章 。 


15.1 屏幕 抓 取 


屏幕 抓 取 是 通过 程序 下 载 网 页 并 从 中 提取 信息 的 过 程 。 这 种 技术 很 有 用 , 在 网 页 中 有 你 要 在 
程序 中 使 用 的 信息 时 , 就 可 使 用 它 。 当 然 , 如 果 网 页 是 动态 的 , 即 随时 间 而 变化 , 这 就 更 有 用 了 。 
如 果 网 页 不 是 动态 的 ， 你 可 手工 下 载 一 次 并 提取 其 中 的 信息 。( 当然 ， 最 理想 的 情况 是 ， 可 通过 
Web 服 务 来 获取 这 些 信息 ， 这 将 在 本 章 后 面 讨论 。) 

从 概念 上 说 ， 这 种 技术 非常 简单 : 下 载 数 据 并 对 其 进行 分 析 。 例 如 ,你 可 使 用 urllib 来 获取 
网 页 的 HTML 代 码 ， 青 使 用 正则 表达 式 ( 参见 第 10 章 ) 或 其 他 技术 从 中 提取 信息 。 例 如 ,假设 你 
要 从 Python Job Board ( http://python.org/jobs ) 提取 招聘 单位 的 名 称 和 网 站 。 通 过 查看 该 网 页 的 源 
代码 ， 你 发 现 可 在 类 似 于 下 面 的 链接 中 找到 名 称 和 URL : 


<a href=" /jobs/1970/">Python Engineer</a> 
代码 清单 15-1 所 示 的 示例 程序 使 用 url1ib 和 re 来 提取 所 需 的 信息 。 
代码 清单 15-1 简单 的 屏幕 抓 取 程序 


from urllib.request import Urlopen 
import re 
p = re.compile('<a href="(/jobs/\\d+)/">(.*?)</a>') 
text = urlopen('http://python.org/jobs').read().decode() 
for url, name in p.findall(text): 
print('{} ({})'.format(name, url)) 


这 些 代码 当然 有 改进 的 空间 ,但 已 经 做 得 非常 出 色 了 。 人 然而， 这 种 方法 至 少 存在 3 个 缺点 。 
口 正则 表达 式 一 点 都 不 容易 理解 。 如果 HTML 代 码 和 查询 都 更 复杂 , 正则 表达 式 将 更 难以 理 
解 和 维护 。 
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口 它 对 付 不 了 独特 的 HTML 内 容 ， 如 CDATA 部 分 和 字符 实体 ( 如 &amp; )。 遇 到 这 样 的 东西 
时 ， 这 个 程序 很 可 能 束手无策 。 
正则 表达 式 依赖 于 HTML 代 码 的 细节 ， 而 不 是 更 抽象 的 结构 。 这 意味 着 只 要 网 页 的 结构 发 生 
细微 的 变化 ， 这 个 程序 可 能 就 不 管用 ( 等 你 阅读 本 书 时 ， 它 可 能 已 经 不 管用 了 )。 

针对 基于 正则 表达 式 的 方法 存在 的 问题 , 接 下 来 将 讨论 两 种 可 能 的 解决 方案 。 一 是 结合 使 用 
程序 Tidy ( 一 个 Python 库 ) 和 XHTML 解 析 ; 二 是 使 用 专 为 屏幕 抓 取 而 设计 的 Beautiful Soup 库 。 




















注意 还 有 其 他 Python 屏 幕 抓 取 工 具 , 例 如 ,你 可 能 想 查 看 Ka-Ping Yee 的 scrape.py( http://zesty.ca/ 
python )。 


15.1.1 Tidy 和 XHTML 解析 


Python 标 准 库 为 解析 HTML 和 XML 等 结构 化 格式 提供 了 强大 的 支持 (参见 “Python 库 参考 手 
册 ” 中 的 Structured Markup Processing Tools 部 分 )。XML 和 XML 解 析 将 在 第 22 章 更 深入 地 讨论 ， 
这 里 只 介绍 处 理 XHTML 所 需 的 工具 。XHTML 是 HTML 5 规范 描述 的 两 种 具体 语法 之 一 ， 也 是 一 
种 XML 格 式 。 这 里 介绍 的 大 部 分 内 容 也 适用 于 HTML。 

如 果 每 个 网 页 包含 的 XHTML 都 正确 而 有 效 ， 解 析 工 作 将 非常 简单 。 问 题 是 较 老 的 HTML 方 
言 不 那么 严谨 ,虽然 有 人 指责 这 些 不 严谨 的 方言 , 但 有 些 人 对 这 些 指责 置 若 回 闻 。 原 因 可 能 在 于 
大 多 数 Web 浏 览 器 都 非常 宽容 ， 即 便 面 对 的 是 最 混乱 、 最 无 意义 的 HTML ， 也 会 尽 最 大 努力 将 其 
演 染 出 来 。 这 为 网 页 制作 者 提供 了 方便 ， 可 能 让 他 们 感到 满意 ， 却 让 屏幕 抓 取 工 作 变 得 难得 多 。 

标准 库 提供 的 通用 的 HTML 解 析 方 法 是 基于 事件 的 : 你 编写 事件 处 理 程 序 ， 供 解析 程序 处 理 
数据 时 调用 。 标准 库 模 块 html.parser 让 你 能 够 以 这 种 方式 对 极 不 严谨 的 HTML 进 行 解析 , 但 要 基 
于 文档 结构 来 提取 数据 ( 如 第 二 个 二 级 标题 后 面 的 第 一 项 )， 在 存在 标签 缺失 的 情况 下 想 怕 就 只 
能 靠 猪 了。 如 果 你 愿意 ， 当 然 可 以 这 样 做 , 但 还 有 男 一 种 方式 一 一 使 用 Tidy。 

1. Tidy 是 什么 

Tidy 是 用 于 对 格式 不 正确 且 不 严谨 的 HTML 进 行 修复 的 工具 。 它 非常 聪明 ， 能 够 修复 很 多 常 
见 的 错误 ， 从 而 完成 大 量 你 不 愿意 做 的 工作 。 它 还 提供 了 极 大 的 配置 空间 ， 让 你 能 够 开 / 关 各 种 
校正 。 

下 面 是 一 个 错误 百出 的 HTML 文 件 一 一 有 些 过 时 的 HTML 代 码 ， 还 有 些 明 显 的 错误 ( 你 能 找 
出 所 有 的 问题 吗 ): 


<h1>Pet Shop 
<h2>Complaints</h3> 


































































































<p>There is <b>no <i>way</b> at all</i> we can accept returned 
parrots. 


<h1><i>Dead Pets</h1> 
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<p>Our pets may tend to rest at times, but rarely die within the 
warranty period. 


<i><h2>News</h2></i> 

<p>We have just received <b>a really nice parrot. 
<p>It's really nice.</b> 

<h3><hr>The Norwegian Blue</h3> 


<h4>Plumage and <hr>pining behavior</h4> 
<a href="#norwegian-blue">More information<a> 


<p>Features: 
<body> 
<1i>Beautiful plumage 


下 面 是 Tidy 修 复 后 的 版 本 : 


<!DOCTYPE html> 

<html> 

<head> 

<title></title> 

</head> 

<body> 

<h1>Pet Shop</h1> 

<h2>Complaints</h2> 

<p>There is <b>no <i>way</i></b> <i>at all</i> we can accept 
returned parrots.</p> 

<h1><i>Dead Pets</i></h1> 

<p><i>Our pets may tend to rest at times, but rarely die within the 
warranty period.</i></p> 

<h2><i>News</i></h2> 

<p>We have just received <b>a really nice parrot.</b></p> 
<p><b>It's really nice.</b></p> 

<hr> 
<h3>The Norwegian Blue</h3> 

<h4>Plumage and</h4> 

<hr> 

<h4>pining behavior</h4> 

<a href="#norwegian-blue">More information</a> 
<p>Features:</p> 

<ul> 

<1i>Beautiful plumage</1i> 

</ul> 

</body> 

</html> 


当然 ，Tidy 并 不 能 修复 HTML 文 件 存在 的 所 有 问题 ， 但 确实 能 够 确保 文件 是 格式 良好 的 〈 即 
所 有 元 素 都 戏 套 正确 )， 这 让 解析 工作 容易 得 多 。 

2. 获取 Tidy 

有 多 个 用 于 Python 的 Tidy 库 包装 器 ， 至 于 哪个 最 新 并 非 固定 不 变 的 。 可 像 下 面 这 样 使 用 pip 





























15.1 屏幕 抓 取 259 








来 找 出 可 供 使 用 的 包装 器 : 

$ pip search tidy 

一 个 不 错 的 选择 是 PyTidyLib ， 可 像 下 面 这 样 安装 它 : 

$ pip install pytidylib 

然而 ， 并 非 一 定 要 安装 Tidy 库 包装 器 。 如 果 你 使 用 的 是 UNIX 或 Linux 系 统 ， 很 可 能 已 安装 了 
命令 行 版 Tidy。 另 外 ,不 管 你 使 用 的 是 哪 种 操作 系统 ， 都 可 从 Tidy 网 站 (http:/html-tidy.org ) 获 
取 可 执行 的 二 进 制版 本 。 有 了 二 进 制版 本 后 , 就 可 使 用 模块 subprocess (或 其 他 包含 popen 函 数 的 
模块 ) 来 运行 Tidy 程 序 了 。 例 如 ,假设 你 有 一 个 混乱 的 HTML 文 件 ( messy.html )， 且 在 执行 路 径 
中 包含 命令 行 版 Tidy， 下 面 的 程序 将 对 这 个 文件 运行 Tidy 并 将 结果 打印 出 来 : 


from subprocess import Popen, PIPE 





















































text = open('messy.html').read() 
tidy = Popen('tidy', stdin=PIPE, stdout=PIPE, stderr=PIPE) 


tidy.stdin.write(text.encode()) 
tidy.stdin.close() 


print(tidy.stdout.read().decode()) 


如 果 Popen 找 不 到 tidy， 可 能 需要 提供 这 个 可 执行 文件 的 完整 路 径 。 

在 实际 工作 中 ,你 很 可 能 不 会 打印 结果 ,而 是 从 中 提取 一 些 有 用 的 信息 ,这 将 在 接 下 来 的 几 
小 节 中 演示 。 

3. 为 何 使 用 XHTML 

XHTML 和 旧式 HTML 的 主要 区 别 在 于 , XHTMIL 非 常 严 格 , 要 求 显 式 地 结束 所 有 的 元 素 ( 至 
少 就 我 们 当前 的 目标 而 言 如 此 )。 因 此 ， 在 HTML 中 ， 可 通过 (使 用 标签 cp> ) 开始 另 一 个 段落 来 
结束 当前 段落 ， 但 在 XHTML 中 ， 必 须 先 〈 使 用 标签 </p> ) 显 式 地 结束 当前 段落 。 这 让 XHTML 
解析 起 来 容易 得 多 ， 因 为 你 能 清楚 地 知道 何 时 进入 或 离开 各 种 元 素 。XHTML 的 另 一 个 优点 是 ， 
它 是 一 种 XML 方言 ， 可 使 用 各 种 出 色 的 工具 ( 如 XPath ) 来 处 理 ， 但 本 章 不 会 利用 这 一 点 。 有 关 
XML 的 详细 信息 ， 请 参阅 第 22 章 。 有 关 如 何 使 用 XPath 的 详细 信息 ， 请 参阅 http:/www.w3schools. 
com/xml/xml:xpath.asp。 

要 对 Tidy 生 成 的 格式 良好 的 XHTML 进 行 解析 ， 一 种 非常 简单 的 方式 是 使 用 标准 库 模 块 
html.parser 中 的 HTMLParser 类 。 

4. 使 用 HTMLParser 
使 用 HTMLParser 意 味 着 继承 它 , 并 重 写 各 种 事件 处 理 方法 ,如 handle starttag 和 handle data。 
表 15-1 概 述 了 相关 的 方法 以 及 解析 豆 在 什么 时 候 自 动 调用 它们 。 
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表 15-1 HTMLParser 中 的 回调 方法 
















































































































































































回调 方法 何 时 被 调用 
handle starttag(tag, attrs) 遇 到 开始 标签 时 调用 。attrs 是 一 个 由 形 如 (name，value) 的 元 组 组 成 的 序列 
handle_startendtag(tag，attrs) 。 遇 到 空 标签 时 调用 。 默 认 分 别处 理 开始 标签 和 结束 标签 
handle_endtag(tag) 遇 到 结束 标签 时 调用 
handle data(data) 遇 到 文本 数据 时 调用 
handle_charref(ref) 遇 到 形 如 8#ref; 的 字符 引用 时 调用 
handle entityref(name) 遇 到 形 如 8&name; 的 实体 引用 时 调用 
handle_comment (data) 遇 到 注释 时 ， 只 对 注释 内 容 调用 
全 遇 到 形 如 <!.. .> 的 声明 时 调用 
handle pi(data) 于 处 理 指令 
unknown_decl(data) 遇 到 未 知 声明 时 调用 


整个 
以 了 
代码 




















就 屏幕 抓 取 而 言 ， 通 常 无 需 实 现 所 有 的 解析 器 回调 方法 (事件 处 理 程序 )， 也 可 能 无 需 创建 
文档 的 抽象 表示 ( 如 文档 树 ) 就 能 找到 所 需 的 内 容 。 只 需 跟踪 找到 目标 内 容 所 需 的 信息 就 可 
。( 有 关 这 个 主题 的 更 详细 信息 ， 请 参阅 第 22 章 ; 该 章 讨论 了 如 何 使 用 SAX 来 解析 XML。 ) 
清单 15-2 所 示 程 序 解 决 的 问题 与 代码 清单 15-1 相 同 ， 但 使 用 的 是 HTMLParser。 











代码 清单 15-2 ”使 用 模块 HTMLParser 的 屏幕 抓 取 程序 


from urllib.request import urlopen 
from html.parser import HTMLParser 


def isjob(ur1l) : 
下 Te 
a, b, c, d = url.split('/') 
except ValueError: 
return False 
return a ==d == '' and b == 'jobs' and c.isdigit() 


class Scraper(HTMLParser): 
in link = False 


def handle starttag(self, tag, attrs): 
attrs = dict(attrs) 
url = attrs.get('href', '') 
if tag == "a' and isjob(url): 
self.url = url 
self.in link = True 
self.chunks = [] 


def handle data(self, data): 
if self.in link: 
self.chunks.append(data) 
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def handle endtag(self, tag): 
if tag == 'a' and self.in link: 
print('{} ({})'.format(''.join(self.chunks), self.url)) 
self.in link = False 


text = urlopen('http://python.org/jobs').read().decode() 
parser = Scraper() 

parser. feed(text) 

parser.close() 


有 几 点 需要 注意 。 首 先 ， 这 里 没有 使 用 Tidy， 因 为 这 个 网 页 的 HTML 格 式 足 够 良好 。 如 果 你 
运气 好 ， 可 能 发 现 并 不 需要 使 用 Tidy。 另 外 , 我 使 用 了 一 个 布尔 状态 变量 (属性 ) 来 跟踪 自己 是 
否 位 于 相关 的 链接 中 。 在 事件 处 理 程序 中 , 我 检查 并 更 新 这 个 属性 。 其 次 ，handle starttag 的 参 
数 是 一 个 由 形 如 (key, value) 的 元 组 组 成 的 列表 ， 因 此 我 使 用 dict 将 它们 转换 为 字典 ， 以 便 管 理 。 

方法 handle_data ( 和 属性 chunks ) 可 能 需要 稍 做 说 明 。 它 使 用 的 技术 在 基于 事件 的 结构 化 标 
记 ( 如 HTML 和 XML ) 解析 中 很 常见 : 不 是 假定 通过 调用 handle_data 一 次 就 能 获得 所 需 的 所 有 
文本 ， 而 是 假定 这 些 文本 分 成 多 个 块 ， 需 要 多 次 调用 handle_data 才 能 获得 。 导 致 这 种 情况 的 原 
因 有 多 个 一 一 缓冲 、 字 符 实体 、 忽 略 的 标记 等 , 因此 需要 确保 获取 所 有 的 文本 。 接 下 来 , 为 了 (在 
方法 handle_endtag 中 ) 输出 结果 ， 我 将 所 有 的 文本 块 合并 在 一 起 。 为 运行 这 个 解析 器 ， 调 用 其 
方法 feed 将 并 text 作 为 参数 ， 然 后 调用 其 方法 close。 

在 有 些 情况 下 ， 这 样 的 解决 方案 比 使 用 正则 表达 式 更 健壮 一 一 应 对 输入 数据 变化 的 能 力 更 
强 。 然 而 ， 你 可 能 持 反对 意见 ， 理 由 是 与 使 用 正则 表达 式 相 比 ， 这 种 解决 方案 的 代码 更 繁琐 ， 还 
可 能 不 那么 清晰 易 懂 。 面 对 更 复杂 的 提取 任务 时 ,支持 这 种 解决 方案 的 论据 可 能 更 有 说 服 力 , 但 
即便 如 此 , 还 是 让 人 依稀 觉得 一 定 有 更 好 的 办 法 。 如 果 你 不 介意 多 安装 一 个 模块 , 确实 有 更 佳 的 
办 法 ， 下 面 就 来 介绍 。 



















































































15.1.2 Beautiful Soup 

















Beautiful Soup 是 一 个 小 巧 而 出 色 的 模块 用 于 解析 你 在 Web 上 可 能 遇 到 的 不 严谨 是 格式 糟糕 
的 HTML。Beautiful Soup 网 站 ( http://crummy.com/software/BeautifulSoup ) 称 : 








那个 糟糕 的 网 页 并 非 出 自 你 的 手笔 。 你 只 是 想 从 中 提取 一 些 数据 。Beautiful Soup 
将 向 你 伸 出 援手 。 


下 载 并 安装 Beautiful Soup 易 如 反 掌 。 与 大 多 数 包 一 样 ， 你 可 使 用 pip 来 完成 这 种 任务 。 

$ pip install beautifulsoup4 

你 可 能 想 使 用 pip 进 行 搜索 ,， 看 看 是 否 有 更 新 的 版 本 。 安 装 Beautiful Soup， 编写 从 Python Job 
Board 提 取 Python 职 位 的 程序 非常 容易 ， 且 代码 很 容易 理解 ， 如 代码 清单 15-3 所 示 。 这 个 程序 不 检 
查 网 页 的 内 容 ， 而 是 在 文档 结构 中 导航 。 








262 第 15 章 Python 和 Web 





代码 清单 15-3 ”使 用 Beautiful Soup 的 屏幕 抓 取 程序 
from urllib.request import urlopen 


from bs4 import BeautifulSoup 


text = urlopen('http://python.org/jobs').read() 
soup = BeautifulSoup(text, 'html.parser') 


jobs = set() 
for job in soup.body.section('h2'): 
jobs.add('{} ({})'.format(job.a.string, job.a['href'])) 


print('\n'.join(sorted(jobs, key=str.1lower))) 


我 使 用 要 从 中 抓 取 文 本 的 HTML 代 码 实例 化 BeautifulSoup 类 , 然后 用 各 种 机 制 来 提取 解析 树 
的 不 同 部 分 。 例 如 ， 使 用 soup.body 来 获取 文档 体 ， 再 访问 其 中 的 第 一 个 section。 使 用 参数 'h2， 
调用 返回 的 对 象 ， 这 与 使 用 其 方法 find_al1 等 效 一 一 返回 其 中 的 所 有 hz 元素。 每 个 h2 元 素 都 表示 
一 个 职位 , 而 我 感 兴趣 的 是 它 包 含 的 第 一 个 链接 job.a。 属 性 string 是 链接 的 文本 内 容 , 而 a[ 'href'] 
为 属性 href。 你 肯定 注意 到 了 ， 在 代码 清单 15-3 中 ， 我 使 用 了 set 和 sorted ( 通过 将 参数 key 设 置 
为 一 个 函数 以 忽略 大 小 写 )。 这 些 与 Beautiful Soup 毫 无 关系 ， 旨 在 消除 重复 的 职位 并 按 字母 顺序 
打印 它们 ， 从 而 让 这 个 程序 更 有 用 。 

如 果 你 要 抓 取 ( 本章 后 面 将 讨论 的 ) RSS feed， 可 使 用 另 一 个 与 Beautiful Soup 相 关 的 工具 ， 
名 为 Scrape 'N Feed ( http://crummy.com/software/ScrapeNFeed )。 
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本 章 的 第 一 部 分 讨论 了 客户 端 技 术 ， 下 面 将 注意 力 转向 服务 需 端 。 本 节 讨 论 基 本 的 Web 编 程 
技术 : 通用 网 关 接口 (CGI )。CGI 是 一 种 标准 机 制 ，Web 服 务 需 可 通过 它 将 〈 通 党 是 通过 Web 表 
达 提 供 的 ) 查询 交 给 专用 程序 ( 如 你 编写 的 Python 程序 )， 并 以 网 页 的 方式 显示 查询 结果 。 这 是 
一 种 创建 Web 应 用 的 简单 方式 ， 让 你 无 需 编写 专用 的 应 用 程序 服务 器 。 有 关 Python CGI 编程 的 详 
细 信 息 ， 请 参阅 Python 网 站 的 Web 编 程 主题 指南 ( http://wiki.python.org/moin/WebProgramming )。 

Python CGI 编程 的 关键 工具 是 模块 cgi， 另 一 个 对 开发 CGI 脚本 很 有 帮助 的 模块 是 cgitp， 将 
在 15.2.6 节 详细 介绍 。 

要 让 CGI 脚本 能 够 通过 Web 进 行 访问 〈 和 运行 )， 必 须 将 其 放 在 Web 服 务 需 能 够 访问 的 地 方 、 
添加 !# 行 并 设置 合适 的 文件 权限 。 接 下 来 依次 介绍 这 三 个 步骤。 


15.2.1 第 一 步 : 准备 Web 服务 器 


这 里 假设 你 能 够 访问 Web 服 务 器 。 换 而 言 之 ， 你 能 够 将 内 容 发 布 到 Web。 通 常 ， 要 将 内 容 发 
布 到 Web， 只 需 将 网 页 、 图 像 等 放 入 特定 的 目录 (在 UNIX 中 通常 为 public_ html ) 即 可 。 如 果 你 不 
知道 如 何 将 内 容 发 布 到 Web， 请 咨询 Internet 服 务 提供 商 (ISP ) 或 系统 管理 员 。 
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半 





提示 “如 果 你 使 用 的 是 macOS 系 统 ， 应 随 操作 系统 一 起 安装 了 Apache Web 服 务 器 。 要 开启 这 个 
服务 器 ， 可 在 系统 首选 项 中 的 共享 首选 项 面板 中 选择 复 选 框 “Web 共 享 ”。 





如 果 你 只 是 想 尝 试 使 用 CGI， 可 在 Python 中 使 用 模块 http.server 直 接 运行 一 个 临时 Web 服 务 

髓 。 与 其 他 模块 一 样 ， 可 通过 向 Python 可 执行 文件 提供 开关 -nm 来 导入 并 运行 这 个 模块 。 如 果 同 时 

间 定 了 - -cgi, 启动 的 服务 器 将 支持 CGI。 请 注意 , 这 个 服务 器 将 提供 运行 它 时 所 在 目录 中 的 文件 ， 
因此 务必 确保 这 个 目录 中 没有 机 密 内 容 。 


$ python -m http.server --cgi 
Serving HTTP on 0.0.0.0 port 8000 ... 


如 果 现 在 将 浏览 器 指向 http://127.0.0.1:8000 或 http://localhost:8000， 将 看 到 运行 这 个 服务 器 所 
在 目录 的 内 容 。 另 外 ， 你 还 将 看 到 服务 器 提供 的 有 关连 接 的 信息 。 

CGI 程序 也 必须 放 在 可 通过 Web 访 问 的 目录 中 。 另 外 ， 必 须 将 其 标识 为 CGI 脚本 ， 以 免 Web 
服务 器 以 网 页 的 方式 提供 其 源 代 码 。 为 此 ， 有 两 种 常见 的 方式 : 
口 将 脚本 放 在 子 目录 cgi-bin 中 ; 
口 将 脚本 文件 的 扩展 名 指定 为 .cgi。 

具体 的 工作 原理 随 服 务 器 而 异 。 如 果 你 心 存疑 虑 ,请 咨询 ISP 或 系统 管理 员 。( 例如 ， 如 果 你 
使 用 的 是 Apache, 可 能 需要 对 目标 目录 启用 ExecCGI 选 项 。) 如 果 你 使 用 的 是 模块 http.server 中 的 
服务 器 ， 应 使 用 子 目 录 cgi-bin。 





















































15.2.2 第 二 步 : 添加 ! 拉 了 


将 脚本 放 到 正确 的 位 置 (还 可 能 给 它 指定 特定 的 文件 扩展 名 ) 后 ,必须 在 其 开头 添加 一 个 ! 
行 。 第 1 章 说 过 ， 通 过 添加 ! 反 了 ， 无 需 显 式 地 执行 Python 解释 器 就 能 执行 脚本 。 通 常 ， 这 只 是 提 
供 了 便利 ， 但 对 CGI 脚本 来 说 却 至 关 重要 ， 因 为 如 果 没 有 1!# 和 人行 ，Web 服 务 顺 将 不 知道 如 何 执行 脚 
本 。( Web 服 务 器 只 知道 脚本 可 能 是 使 用 Perl、Ruby 等 其 他 编程 语言 编写 的 。) 一 般 而 言 ， 只 需 在 
脚本 开头 添加 如 下 行 即 可 : 

#!/usr/bin/env python 

请 注意 ， 它 必须 是 第 一 行 ( 之 前 没有 空 行 )。 如 果 这 样 做 不 管用 ， 就 得 确定 Python 可 执行 文 
件 的 准确 位 置 ， 并 在 !# 行 中 使 用 完整 的 目录 ， 如 下 所 示 : 

#!/usr/bin/python 
如 果 同 时 安装 了 Python 2 和 Python3， 可 能 需要 将 python 替 换 为 python3( 前 面 的 env 解 决 方案 
亦 如 此 )。 如 果 这 样 做 也 不 管用 ， 可 能 存在 你 看 不 到 的 错误 ， 具体 地 说 是 #4 行 以 \r\n 而 不 是 \n 结 
尾 ， 把 Web 服 务 器 搞 糊 涂 了 。 请 务必 将 脚本 保存 为 UNIX 风 格 的 纯 文本 文件 。 

在 Windows 中 ， 可 使 用 Python 可 执行 文件 的 完整 路 径 ， 如 下 所 示 : 


#!C:\Python36\python.exe 
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15.2.3 第 三 步 : 设置 文件 权限 


需要 做 的 最 后 一 件 事情 是 设置 合适 的 文件 权限 ( 至 少 当 Web 服 务 器 运行 在 UNIX 或 Linux 系 统 
中 时 如 此 )。 必 须 确保 谁 都 可 以 读 取 和 执行 你 的 脚本 文件 ( 否则 Web 服 务 器 将 无 法 运行 它 )， 同 时 
确保 只 有 你 才能 写 和 (这样 其 他 任何 人 都 不 能 修改 你 的 脚本 ) 








提示 如 果 你 在 Windows 中 编辑 脚本 ， 而 它 存储 在 UNIX 磁 盘 服 务 器 中 ( 你 可 使 用 Samba 或 FTP 
来 访问 它 )， 则 当 你 修改 脚本 后 ， 其 文件 权限 可 能 发 生变 化 。 因 此 ， 如 果 你 的 脚本 无 法 运 
行 ， 请 确定 其 文件 权限 依然 是 正确 的 。 


在 UNIX 中 ， 修 改 文件 权限 (或 文件 模式 ) 的 命令 为 chmod。 要 修改 文件 权限 ， 只 需 通 过 普 ; 
用 户 账户 或 专 为 完成 Web 任 务 而 建立 的 账户 执行 下 面 的 命令 ( 这 里 假设 脚本 名 为 somescript.cgi。 
chmod 755 somescript.cgi 


做 好 所 有 这 些 准 备 工 作 后 ， 就 应 该 能 够 像 打开 网 页 一 样 打开 脚本 以 执行 它 。 





注意 ”在 浏览 器 中 ,不 应 像 打开 本 地 文件 那样 打开 脚本 , 而 必须 使 用 完整 的 HTTPURL 来 打开 它 ， 
这 样 才 能 通过 Web (Web 服务 器 ) 取 回 它 。 


通常 ，CGI 脚 本 不 能 修改 计算 机 上 的 任何 文件 。 要 让 它 能 够 修改 文件 ， 必 须 显 式 地 赋予 它 权 
限 。 为 此 ， 有 两 种 选择 : 如 果 有 root ( 系统 管理 员 ) 权限 ， 可 为 脚本 专门 创建 一 个 用 户 账 户 ， 并 
调整 需要 修改 的 文件 的 所 有 者 ; 如 果 没 有 root 权 限 ， 可 设置 该 文件 的 文件 权限 ， 让 系统 中 的 所 有 
用 户 (包括 Web 服 务 絮 用 来 运行 CGI 脚 本 的 账户 ) 都 能 写 人 这 个 文件 。 要 设置 这 样 的 文件 权限 ， 
可 使 用 如 下 命令 : 


chmod 666 editable file.txt 














警告 使 用 文件 模式 666 存 在 潜在 的 安全 风险 ,除非 你 知道 这 样 做 的 后 果 , 否则 最 好 不 要 这 样 做 。 


15.2.4 CGI 安全 风险 

使 用 CGI 程序 存在 一 些 安全 风险 。 如 果 你 允许 CGI 脚本 对 服务 器 中 的 文件 执行 写 信 操作， 那 
么 这 可 能 被 人 利用 来 破坏 数据 一 一 除非 编写 脚本 时 非常 小 心 。 同样 ,如果 直 接 将 用 户 提 供 的 数据 
作为 Python 代 码 ( 如 使 用 exec 或 eval ) 或 shell 命 令 ( 如 使 用 os.system 或 模块 subprocess ) 执行 ， 
就 可 能 执行 恶意 的 命令 ,进而 面临 极 大 的 风险 。 即 便 在 SQL 查询 中 使 用 用 户 提供 的 字符 串 也 很 危 
险 ， 除 非 你 预先 仔细 审查 这 些 字符 串 。SQL 注 入 是 一 种 常见 的 攻击 系统 的 方式 。 


15.2.5 简单 的 CGI 脚本 
最 简单 的 CGI 脚本 类 似 于 代码 清单 15-4。 
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代码 清单 15-4 ”简单 的 CGI 脚本 
#!/usr/bin/env python 


print('Content-type: text/plain' ) 
print()# 打印 一 个 空 行 ， 以 结束 首部 


print('Hello, world!') 

如 果 将 这 些 代 码 保存 为 文件 simplel.cgi 并 通过 Web 服 务 器 打开 它 ， 将 看 到 一 个 网 页 ， 其 中 只 
包含 纯 文本 Hello, world!。 要 通过 Web 服 务 需 打开 这 个 文件 ,必须 将 其 放 在 Web 服 务 咒 能够 访问 的 
地 方 。 在 典型 的 UNIX 环 境 中 ， 可 将 其 放 在 主 目录 下 的 目录 public_html 中 ， 这 样 就 可 使 用 URL 
http:/localhost/~username/simplel.cgi (将 username 蔡 换 为 你 的 用 户 名 ) 来 打开 它 。 有 关 这 方面 的 
详情 ， 请 咨询 ISP 或 系统 管理 员 。 如 果 你 使 用 了 目录 cgi-bin ， 也 可 将 这 个 文件 命名 为 simple1.py。 

如 你 所 见 ， 这 个 程序 写 入 到 标准 输出 ( 如 使 用 print ) 的 内 容 都 出 现在 网 页 中 至 少 大 部 
分 内 容 都 如 此 。 事 实 上 ， 首 先 打印 的 是 HTTP 首 部 ， 这 些 行 包含 有 关 网 页 的 信息 。 这 里 关心 的 唯 
一 首部 是 Content-type 。 如 你 所 见 ，Content-type 后 面 跟着 一 个 冒号 、 一 个 空格 和 类 型 名 
text/plain。 这 指出 这 个 网 页 是 纯 文本 的 。 要 指出 网 页 是 HTML 的 ， 应 将 这 行 修改 成 下 面 这 样 : 

print('Content-type: text/html') 

打印 所 有 的 首部 后 ,打印 了 一 个 空 行 ， 以 指出 接 下 来 为 文档 本 身 。 如 你 所 见 ， 这 里 的 文档 只 
包含 字符 串 'Hello，wor1dl '。 




































































15.2.6 ”使 用 cgitb 进行 调试 


有 时 候 ， 编 程 错误 可 能 导致 程序 终止 ， 并 因 未 捕获 的 异常 而 显示 栈 跟 踪 。 通 过 CGI 运行 程序 
时 ， 如 果 出 现 这 种 情况 ， 可 能 导致 Web 服 务 器 显示 毫 无 帮助 的 错误 消息 甚至 黑色 网 页 。 如 果 你 能 
够 访问 服务 器 日 志 ( 例如, 如果 你 使 用 的 是 http.server )， 可 能 能 够 在 这 里 找到 蛛丝马迹 。 然 而 ， 
为 帮助 调试 CGI 脚本 ， 标 准 库 提 供 了 一 个 很 有 用 的 模块 ， 名 为 cgitp (用 于 CGI 栈 跟踪 )。 通 过 导 
人 这 个 模块 并 调用 其 中 的 函数 enable， 可 显示 一 个 很 有 用 的 网 页 ， 其 中 包含 有 关 什 么 地 方 出 了 问 
题 的 信息 。 代 码 清单 15-5 演 示 了 如 何 使 用 模块 cgitb。 


代码 清单 15-5 “显示 栈 跟 踪 的 CGI 脚本 〈faulty.cgi ) 


#!/usr/bin/env python 









































import cgitb; cgitb.enable() 
print('Content-type: text/html\n') 
print(1/0) 


print('Hello, world!') 


在 浏览 器 中 通过 Web 服务 器 访问 这 个 脚本 时 ， 结 果 如 图 15-1 所 示 。 
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http://example.com/faulty.cgi 





Python 2.5.1: /usr/bin/python 
ZeroDivisionError Sat Jun 7 22:23:27 2008 


A problem occurred in a Python script. Here is the sequence of function calls leading up to the 
error, in the order they occurred. 


7 print 

9 print 1/0 

Tr 

11 print ‘Hello, world!' 


ZeroDivisionError: integer division or modulo by zero 
args = (integer division or modulo by zero',) 











图 15-1 模块 cgitb 显 示 的 CGI 栈 跟踪 


请 注意 ， 程 序 开发 好 后 ， 应 关闭 这 种 cgitb 功 能 ， 因 为 栈 跟踪 页 面 并 非 供 程序 的 普通 用 户 查 
看 世 Ds 


15.2.7 ”使 用 模块 cgi 


到 目前 为 止 ， 所 有 CGI 脚本 都 只 生成 输出 ， 而 没有 使 用 任何 形式 的 输入 。 输 入 是 通过 HTML 
表单 (将 在 下 一 节 介 绍 ) 以 键 - 值 对 ( 字段 ) 的 方式 提供 给 CGI 脚本 的 。 在 CGI 脚本 中 ， 可 使 用 模 
块 cgi 中 的 FieldStorage 类 来 获取 这 些 字 段 。 当 你 创建 Fieldstorage 实 例 (应 只 创建 一 个 ) 时 , 它 
将 从 请 求 中 取 回 输入 变量 ( 字段 )， 并 通过 一 个 类 似 于 字典 的 接口 将 它们 提供 给 和 脚本。 要 访问 
Fieldstorage 中 的 值 ， 可 通过 普通 的 键 查找 ,但 出 于 一 些 技术 原因 ( 与 文件 上 传 相关 ， 这 里 不 讨 
论 )，Fieldstorage 的 元 素 并 不 是 你 要 的 值 。 例 如， 即便 你 知道 请 求 包含 一 个 名 为 name 的 值 ， 也 不 
能 像 下 面 这 样 做 : 

form = cgi.FieldStorage() 

name = form[ 'name'] 


而 必须 这 样 做 : 


form = cgi.FieldStorage() 
name = form[ 'name' |] .value 


一 种 更 简单 的 获取 值 的 方式 是 使 用 方法 getvalue。 它 类 似 于 字典 的 方法 get， 但 返回 项 目的 
value 属 性 的 值 ， 如 下 所 示 : 


form = cgi.FieldStorage() 
name = form.getvalue('name’', 'Unknown') 


在 这 个 示例 中 ， 提 供 了 一 个 默认 值 ('Unknown' )。 如 果 没 有 提供 ， 默 认 值 将 为 None。 在 字段 
没有 值 时 ， 将 使 用 默认 值 。 













































































@ 另 一 种 选择 是 关闭 显示 功能 ， 将 错误 记录 到 文件 中 。 有 关 这 方面 的 详细 信息 ， 请 参阅 “Python 库 参考 手册 ”。 
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代码 清单 15-6 是 一 个 使 用 cgi.FieldStorage 的 简单 示例 。 





代码 清单 15-6 ”从 FieldStorage 中 获取 单个 值 的 CGI 脚 本 ( simple2.cgi ) 


#!/usr/bin/env python 


import cgi 
form = cgi.Fieldstorage() 


name = form.getvalue('name', 'world') 
print('Content-type: text/plain\n') 


print('Hello, {}!'.format(name)) 


在 不 使 用 表单 的 情况 下 调用 CGI 脚 本 


CGI 脚本 的 输入 通常 来 自 提交 的 表单 ， 但 调用 CGI 脚本 时 也 可 直接 指定 参数 。 为 此 可 在 指 


向 脚本 的 URL 后 面 加 上 问号 ， 再 加 上 用 8 分 隔 的 键 - 值 对 。 例 如 ， 如 果 指向 代码 清单 15-6 所 示 
脚本 的 URL 为 http:/www.example.comy/simple2.cgi， 可 这 样 使 用 参数 name=Gumby 和 age=42 来 调 
用 这 个 脚本 : http://www.example.com/simple2.cgi?name=Gumby&age=42。 如 果 这 样 做 ， 这 个 
CGI 脚 本 将 显示 消息 Hello, Gumby! 而 不 是 Hello, World! ( 请 注意 ， 没 有 使 用 参数 age ) 。 要 创建 
这 样 的 URL 查 询 ， 可 使 用 模块 Url1lib.parse 中 的 方法 urlencode: 


>>> urlencode({'name': 'Gumby', 'age': '42'}) 
'age=42&name=Gumby 


你 可 结合 使 用 这 种 策略 和 urllib 来 创建 能 够 与 CGI 脚 本 交互 的 屏幕 抓 取 程 序 。 然 而 ， 与 


其 在 服务 器 端 和 客户 端 都 采取 这 种 做 法 ， 还 不 如 使 用 Web 服 务 ， 这 将 在 15.4 节 介绍 。 


15.2.8 简单 的 表单 











有 了 处 理 用 户 请 求 的 工具 ,该 来 创建 用 户 可 提交 的 表单 了 。 这 个 表单 可 以 是 独立 的 页 面 , 但 





这 里 将 它 放 在 脚本 中 。 





要 深入 地 了 解 如 何 编写 HTML 表 单 (或 HTML ), 可 参考 介绍 HTML 的 优秀 著作 ( 当地 书店 可 





能 序 


CL 有 不 少 )。 男 外 ， 在 网 上 也 能 找到 很 多 有 关 这 个 主题 的 信息 。 与 往常 一 样 ， 发 现 值得 模仿 的 








优秀 网 页 后 ， 可 在 浏览 器 中 查看 其 源 代 码 ， 方法 是 从 菜单 中 选择 “查看 源 代码 ”之 类 的 选项 ( 具 


























体 是 哪个 选项 取决 于 你 使 用 的 浏览 器 )。 


注意 ”从 CGI 脚本 中 获取 信息 的 主要 方式 有 两 种 : 方法 GET 和 方法 POST。 就 本 章 而 言 ， 两 者 的 


Bl 


差别 并 不 重要 。 大 致 上 ，GET 用 于 获取 信息 并 在 URL 中 进行 查询 编码 ， 而 POST 可 用 于 任 
何 类 型 的 查询 ， 但 对 查询 进行 编码 的 方式 稍 有 不 同 。 
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回 到 我 们 的 脚本 ， 代 码 清 单 15-7 是 扩展 后 的 版 本 。 
代码 清单 15-7 包含 HTML 表 单 的 问候 脚本 ( simple3.cgi ) 


#1/usr/bin/env python 


import cgi 
form = cgi.FieldStorage() 


name = form.getvalue('name', 'world') 


print(" 


<html> 


""Content-type: text/html 


<head> 

<title>Greeting Page</title> 
</head> 
<body> 

<h1i>Hello, {}!</h1> 


<form action="'simple3.cgi'> 
Change name <input type= text” name= name” /> 
<input type= Submjit” /> 
</form> 
</body> 


</html> 


""".format(name)) 

在 这 个 脚本 开头 ， 与 以 前 一 样 获取 CGI 人 参数 name， 并 将 默认 值 设 置 为 "wor1d' 。 如 果 在 浏览 器 
中 打开 这 个 脚本 时 没有 提交 任何 值 ， 将 使 用 默认 值 。 

接 下 来 ,打印 了 一 个 简单 的 HTML 页 面 ， 其 中 的 标题 包含 参数 name 的 值 。 另 外 ， 这 个 页 面 还 
包含 一 个 HTML 表 单 ， 该 表单 的 属性 action 被 设置 为 脚本 的 名 称 ( simple3.cgi )。 这 意味 着 提交 表 








单 后 ， 将 月 





了 次 运行 这 个 脚本 。 这 个 表单 只 包含 一 个 输入 元 素 一 一 名 为 name 的 文本 框 。 因 此 ， 如 果 


























你 在 文本 框 中 输入 新 名 字 并 提交 表单 ， 标 题 将 发 生变 化 ， 因 为 现在 参数 name 包 含 值 。 


15-2 显 示 了 通过 Web 服 务 器 访问 代码 清单 15-7 所 示 脚 本 的 结 








AAO Greeting Page 
4 jcj [二 

Hello, world! 

Change name (GSubmit ) 





图 15-2 ”执行 代码 清单 15-7 所 示 CGI 脚 本 的 结果 
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15.3 ”使 用 Web 框架 


对 于 重要 的 Web 应 用 ， 大 多 数 人 都 不 会 直接 为 其 编写 CGI 脚本 ， 而 是 选择 使 用 Web 框 架 ， 
为 它 会 蔡 你 完成 很 多 繁重 的 工作 。 这 样 的 框架 有 很 多 , 后 面 将 提 及 其 中 的 几 个 , 但 现在 要 将 注意 
力 放 在 既 简 单 又 有 用 的 Flask( http://flask.pocoo.org ) 上 。 使 用 pip 很 容易 安装 这 个 框架 。 

$ pip install flask 

假设 你 编写 了 一 个 计算 窜 的 函数 。 


def powers(n=10): 
return ', '.join(str(2**i) for i in range(n)) 


而 且 想 让 每 个 人 都 能 使 用 它 ! 要 使 用 Flask 来 实现 这 个 目标 , 首先 使 用 合适 的 名 称 实例 化 Flask 
， 并 将 这 个 函数 的 URL 路 径 告诉 它 。 


from flask import Flask 
app = Flask( name ) 















































闫 





@app.route('/') 
def powers(n=10): 
return ', '.join(str(2**i) for i in range(n)) 
如 果 这 个 脚本 名 为 powers.py， 就 可 像 下 面 这 样 让 Flask 运 行 它 ( 这 里 假设 是 在 UNIX 风 格 的 
shell 中 ): 


$ export FLASK_APP=poweTs .py 

$ flask run 

* Serving Flask app "powers" 

* Running on http://127.0.0.1:5000/ (Press CTRL+C to quit) 


最 后 两 行 是 Flask 的 输出 。 如 果 你 在 浏览 器 中 输入 上 面 的 URL, 将 看 到 函数 powers 返 回 的 字符 
串 。 你 也 可 给 这 个 函数 指定 更 具体 的 路 径 。 例 如 ， 如 果 使 用 route('/powers') 而 不 是 ('/'), 这 个 
函数 将 位 于 http://127.0.0.1:5000/powers。 这样, 你 就 可 设置 多 个 函数 ,每 个 函数 的 URL 各 不 相同 。 

你 甚至 能 向 函数 提供 参数 。 要 指定 参数 ， 可 使 用 尖 括 号 ， 例 如 '/powers/<n>'。 这 样 ， 斜 杠 
后 面 的 内 容 将 作为 关键 字 参 数 n 的 值 。 但 这 样 提供 的 是 一 个 字符 串 ， 而 这 里 需要 的 是 一 个 整数 。 
为 执行 转换 ， 可 使 用 route(' /powers/<int:n>')。 这 样 修改 后 ， 如 果 重 新 启动 Flask， 并 访问 URL 
http://127.0.0.1:5000/powers/3， 将 得 到 输出 1，2，4。 

Flask 还 有 很 多 其 他 的 功能 , 其 文档 也 很 容易 理解 。 如果 要 尝试 简单 的 服务 器 端 Web 应 用 开发 ， 
建议 你 看 看 这 些 文档 。 


其 他 Web 应 用 框架 


还 有 很 多 其 他 的 Web 框 架 ， 大 小 丝 有 。 有 的 星 深 难 懂 ， 有 些 定期 召开 推广 会 议 。 表 15-2 列 出 
了 几 个 流行 的 框架 , 更 完整 的 清单 请 参阅 Python 网 页 ( https://wiki.python.org/moin/WebFrameworks )。 
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表 15-2 ”Python Web 应 用 框架 





名 称 网 站 

Django https://djangoproject.com 
TurboGears http://turbogears.org 

web2py http://web2py.com 

Grok https://pypi.python.org/pypi/grok 
Zope2 https://pypi.python.org/pypi/Zope2 
Pyramid https://trypyramid.com 


15.4 Web 服务: 更 高 级 的 抓 取 


Web 服 务 有 点 像 对 计算 机 友好 的 网 页 。 它 们 基于 让 程序 能 够 通过 网 络 交换 信息 的 标准 和 协 
议 一 一 通常 其 中 一 个 程序 请 求 信息 或 服务 ( 客户 端 或 服务 请 求 者 )， 而 另 一 个 程序 提供 信息 或 
服务 〈 服务 需 或 服务 提供 者 )。 确 实 ，Web 服 务 器 很 容易 理解 ， 而 且 看 起 来 与 前 面 讨论 的 网 络 编 
程 很 像 ， 不 过 也 存在 差别 。 

Web 服 务 通常 运行 在 极 高 的 抽象 层级 中 , 将 HTTP ( Web 使 用 的 协议 ) 用 作 底 层 协议 。 在 这 个 
协议 上 面 ， 它 们 使 用 更 为 面向 内 容 的 协议 ( 如 XML 格 式 ) 来 对 请 求 和 响应 进行 编码 。 这 意味 着 
Web 服 务 右 可 作为 Web 服 务 的 平台 。 正 如 本 节 的 标题 指出 的 ， 它 将 Web 抓 取 提 高 到 男 一 个 层级 。 
你 可 将 Web 服 务 看 作为 计算 机 客户 ( 而 不 是 人 类 ) 设计 的 动态 网 页 。 

有 些 Web 服 务 标准 非常 复杂 , 但 在 不 涉及 任何 复杂 方面 的 情况 下 也 能 完成 很 多 任务 。 本 节 将 
简要 地 介绍 这 个 主题 ， 并 提供 在 哪里 能 够 找到 所 需 工 具 和 信息 的 指南 。 

































































注意 ”鉴于 实现 Web 服 务 的 方式 众多 ( 且 涉 及 大 量 的 协议 )， 同 时 每 个 Web 服 务 系统 都 可 能 提供 
多 种 服务 ， 因 此 有 时 必须 以 客户 端 能 够 自动 解读 的 方式 描述 服务 ， 这 被 称 为 元 服务 。 有 
关 这 种 描述 的 标准 是 Web 服 务 描述 语言 (WSDL )。WSDL 是 一 种 XML 格式 ， 描 述 了 通过 
服务 可 使 用 哪些 方法 以 及 这 些 方法 的 参数 和 返回 值 等 方面 。 除 支持 SOAP 等 服务 协议 外 ， 
很 多 乃至 大 部 分 Web 服 务工 具 包 都 支持 WSDL。 


15.4.1 RSS 和 相关 内 容 


RSS 指 的 是 富 网 站 摘要 ( Rich Site Summary )、RDF 网 站 摘要 ( RDF Site Summary ) 或 简易 信 
息 聚 合 (Really Simple Syndication )， 具 体 指 哪 个 取决 于 版 本 。 在 最 简单 的 情况 下 ，RSS 是 一 种 以 
XML 方式 列 出 新 闻 的 格式 。RSS 文 档 〈feed ) 与 其 说 是 静态 文档 ， 不 如 说 是 服务 ， 因 为 它们 需要 
定期 或 不 定期 地 更 新 ,。 它们 甚至 还 需 动 态 地 计算 , 以 呈现 最 新 博客 更 新 , 等 等 。 男 一 种 作用 与 RSS 
相同 的 较 新 格式 是 Atom。 有 关 RSS 以 及 相关 资源 描述 框架 ( RDF ) 的 详细 信息 ， 请 参阅 
http:/www.w3.org/RDF。 有 关 Atom 规 范 请 参阅 http:/tools.ietf org/htmlrfec4287。 

市 面 上 的 RSS 阅 读 需 很 多 ， 它 们 通常 也 能 处 理 其 他 格式 ， 如 Atom。 鉴 于 RSS 格 式 易 于 处 理 ， 
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因此 不 断 有 开发 人 员 探 索 出 它 的 新 用 途 。 例如， 有 些 浏览 器 ( 如 Mozilla Firefox ) 允许 用 户 将 RSS 
feed 收 藏 为 书签 ， 进 而 提供 一 个 动态 的 书签 子 菜单 ， 其 中 的 菜单 项 为 不 同 的 新 闻 。RSS 还 是 播客 
的 支柱 ( 播客 其 实 就 是 列 出 声音 文件 的 RSS feed )。 

问题 是 ， 如 果 你 要 编写 客户 端 程序 来 处 理 来 自 多 个 网 站 的 feed， 就 必须 准备 解析 多 种 不 同 的 
格式 , 甚至 需要 对 feed 条 目 中 的 HTML 片 段 进 行 解析 。 为 此 , 可 使 用 BeautifulSoup( 或 其 面向 XML 
的 版 本 )， 但 更 佳 的 选择 是 使 用 Mark Pilgrim 开 发 的 Universal Feed Parser ( https://pypi.python.org/ 
pypi/feedparser )， 因 为 它 能 够 处 理 多 种 feed 格式 (包括 RSS 和 Atom 及 其 扩展 )， 并 在 一 定 程 度 上 文 
持 内 容 清理 。Pilgrim 还 撰写 了 一 篇 很 有 用 的 文章 “Parsing RSS At All Costs”( http:/xmlcomy/ 
pub/a/2003/01/22/dive-into-xml.html )， 如 果 你 想 自己 处 理 清理 ， 可 参考 这 篇 文章 。 



























































15.4.2 ”使 用 XML-RPC 进行 远程 过 程 调用 


除 简 单 的 RSS 下 载 和 解析 机 制 外 ， 还 有 远程 过 程 调用 。 远 程 过 程 调用 是 对 基本 网 络 交互 的 抽 
象 : 客户 端 程序 请 求 服务 器 程序 执行 计算 并 返回 结果 , 但 这 个 过 程 被 伪装 成 简单 的 过 程 ( 函数 或 
方法 ) 调用 。 在 客户 端 代码 中 ,远程 过 程 调用 看 起 来 就 像 普 通 方法 调用 , 但 用 来 调用 方法 的 对 象 
实际 上 位 于 另 一 台 计算 机 中 。XML-RPC 可 能 是 最 简单 的 远程 过 程 调用 机 制 , 它 使 用 HTTP 和 XML 
来 实现 网 络 通信 。 鉴 于 这 种 协议 是 独立 于 语言 的 , 使 用 一 种 语言 编写 的 客户 端 程序 可 轻松 地 调用 
使 用 另 一 种 语言 编写 的 服务 器 程序 中 的 函数 。 




































































提示 “如 果 在 网 上 搜索 ， 将 找到 大 量 用 于 Python 的 其 他 RPC 机 制 。 





Python 标准 库 提 供 了 对 客户 端 和 服务 器 端 XML-RPC 编 程 的 支持 。 有 关 XML-RPC 的 使 用 示 
例 ， 请 参阅 第 27 章 和 第 28 章 。 


RPC 和 REST 


远程 过 程 调 用 可 与 表述 性 状态 转 义 式 (REST ) 网 络 编程 比肩 ， 不 过 这 两 种 机 制 有 天 壤 之 
别 。 基 于 REST 的 (RESTful ) 程序 也 能 让 客户 端 以 编程 方式 访问 服务 器 ， 但 服务 器 程序 不 能 有 
任何 隐藏 的 状态 ， 返 回 什么 样 的 数据 完全 由 指定 的 URL (在 HTTP POST 中 ， 是 客户 端 提 供 的 
额外 数据 ) 决定 。 

有 关 REST 的 详细 信息 可 在 网 上 找到 。 例 如 ， 可 参阅 维基 百科 的 相关 文章 ( http://en. 
wikipedia.org/wiki/Representational_State Transfer ) 。 在 RESTful 编 程 中 ， 经 常 使 用 的 一 种 协议 
是 JavaScript 对 象 表 示 法 (JSON，http://www.json.org ) ， 它 简单 而 优雅 ， 让 你 能 够 使 用 纯 文本 
格式 来 表示 复杂 的 对 象 。 标 准 库 模块 json 提 供 了 对 JSON 格 式 的 支持 。 
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15.4.3 SOAP 


SOAP 也 是 一 种 将 XML 和 HTTP 用 作 底 层 技术 的 消息 交换 协议 。 与 XML-RPC 一 样 ，SOAP 也 
支持 远程 过 程 调用 ， 但 SOAP 规 范 比 XML-RPC 规 范 复杂 得 多 。SOAP 是 异步 的 ， 支 持 有 关 路 由 的 
元 请 求 ， 而 且 类 型 系统 非常 复杂 ( 而 XML-RPC 使 用 简单 而 固定 的 类 型 集 )。 

当前 ， 没 有 标准 的 Python SOAP 工 具 包 ， 可 以 考虑 使 用 Twisted ( http://twistedmatrix.com )、 
ZSI ( http://pywebsvcs.sf.net ) 或 SOAPy ( http://soapy.sf.net )。 有 关 SOAP 的 详细 信息 ， 请 参阅 
http://www.w3.org/TR/soap。 























15.5 小结 


下 面 总 结 了 本 章 介绍 的 主题 。 

口 屏幕 抓 取 : 指 的 是 自动 下 载 网 页 并 从 中 提取 信息 。 程 序 Tidy 及 其 库 版 本 是 很 有 用 的 工具 ， 
可 用 来 修复 格式 糟糕 的 HTML， 然 后 使 用 HTTML 解析 器 进行 解析 。 另 一 种 抓 取 方式 是 使 
用 Beautiful Soup， 即 便 面 对 混乱 的 输入 ， 它 也 可 以 处 理 。 

口 CG1: 通用 网 关 接口 是 一 种 创建 动态 网 页 的 方式 ， 这 是 通过 让 Web 服 务 器 运行 、 与 客户 端 
程序 通信 并 显示 结果 而 实现 的 。 模 块 cgi 和 cgitb 可 用 于 编写 CGI 脚本 。CGI 脚 本 通常 是 在 
HTML 表 单 中 调用 的 。 

口 Flask: 一 个 简单 的 Web 框 架 , 让 你 能 够 将 代码 作为 Web 应 用 发 布 , 同时 不 用 过 多 操心 Web 

部 分 。 

口 Web 应 用 框架 : 要 使 用 Python 开发 复杂 的 大 型 Web 应 用 ，Web 应 用 框架 必 不 可 少 。 对 简单 
的 项 目 来 说 ，Flask 是 不 错 的 选择 ; 但 对 于 较 大 的 项 目 ， 你 可 能 应 考虑 使 用 Django 或 
TurboGears。 

口 Web 服 务 : Web 服 务 之 于 程序 犹如 网 页 之 于 用 户 。 你 可 以 认为 ，Web 服 务 让 你 能 够 以 更 扩 
象 的 方式 进行 网 络 编程 。 常 用 的 Web 服 务 标准 包括 RSS ( 以 及 与 之 类 似 的 RDF 和 Atom )、 
XML-RPC 和 SOAP。 


15.5.1 ”本章 介 绍 的 新 函数 


函 数 描 述 
cgitb.enable() 在 CGI 脚 本 中 启用 栈 跟 踪 
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你 肯定 通过 运行 前 面 编写 的 程序 对 其 进行 了 测试 。 在 下 一 章 , 你 将 学 习 如 何 对 程序 进行 真正 
的 测试 一 一 详尽 、 系 统 乃 至 令 人 乐此不疲 。 





























G@ 以前，SOAP 指 的 是 简单 对 象 访问 协议 (Simple Object Access Protocol )， 但 现在 不 是 这 样 了 。 








测试 基础 








你 怎么 知道 自己 编写 的 程序 管用 呢 ? 能 指望 你 在 任何 时 候 编写 的 代码 都 没有 缺陷 吗 ? 恕 我 
直言 ， 我 想 这 不 太 可 能 。 诚 然 ， 在 大 多 数 情 况 下 使 用 Python 都 很 容易 编写 出 正确 的 代码 ， 但 代码 
出 现 bug 并 非 没有 可 能 。 

调试 是 程序 员 躲 不 开 的 宿命 ， 是 编程 工作 的 有 机 组 成 部 分 。 然 而 ， 要 调试 就 必须 运行 程序 ， 
而 仅仅 运行 程序 可 能 还 不 够 。 例 如 ， 如 果 你 编写 了 一 个 处 理 文件 的 程序 ， 就 必须 有 用 来 处 理 的 文 
件 。 如 果 你 编写 了 一 个 包含 数学 函数 的 工具 库 ， 就 必须 向 这 些 函 数 提供 参数 ,才能 让 其 中 的 代码 
运行 。 

程序 员 无 时 无 刻 不 在 做 这 样 的 事情 。 在 编译 型 语言 中 , 将 不 断 重复 编辑 、 编 译 、 运 行 的 循环 。 
在 有 些 情 况 下 ， 编 译 程序 时 就 会 出 现 问题 ， 程 序 员 不 得 不 在 编辑 和 编译 之 间 来 回 切换 。 在 Python 
中 ， 不 存在 编译 阶段 ， 只 有 编辑 和 运行 阶段 。 测 试 就 是 运行 程序 。 

本 章 介 绍 测试 的 基本 知识 。 我 将 告诉 你 如 何 养 成 在 编程 中 进行 测试 的 习惯 ,并 介绍 一 些 可 帮 
助 编写 测试 的 工具 。 除 了 标准 库 中 的 测试 和 性 能 分 析 工 具 ， 我 还 将 介绍 如 何 使 用 代码 分 析 器 
PyChecker 和 PyLint。 

有 关 编 程 实践 和 理念 的 详细 信息 ， 请 参阅 第 19 章 ， 其 中 还 介绍 了 与 测试 有 关 的 日 志 。 


16.1 先 测试 再 编码 


要 避免 代码 在 开发 途中 被 淘汰 ,必须 能 够 应 对 变化 并 具备 一 定 的 灵活 性 ,因此 为 程序 的 各 个 
部 分 编写 测试 至 关 重 要 ( 这 称 为 单元 测试 )， 而 且 是 应 用 程序 设计 工作 的 重要 组 成 部 分 。 极 限 编 






























































































































































程 先 锋 引 入 了 “测试 一 点 点 , 再 编写 一 点 点 代码 ”的 理念 。 这 种 理念 与 直觉 不 太 相符 , 却 很 管用 ， 
胜 过 与 直觉 一 致 的 “编写 一 点 点 代码 ， 再 测试 一 点 点 ”的 做 法 。 

















换 而 言 之 ,测试 在 先 ， 编 码 在 后 。 这 也 称 为 测试 驱动 的 编程 。 对 于 这 种 方法 ， 你 一 开始 可 能 
不 太 习 惯 , 但 它 有 很 多 优点 , 而 且 随 着 时 间 的 推移 , 你 就 会 慢 慢 习惯 。 习 惯 了 测试 驱动 的 编程 后 ， 
在 没有 测试 的 情况 下 编写 代码 真 的 让 人 觉得 别扭。 

16.1.1 准确 的 需求 说 明 
开发 软件 时 ,必须 先知 道 软件 要 解决 什么 问题 一 一 要 实现 什么 样 的 目标 ,要 阐明 程序 的 目标 ， 
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可 编写 需求 说 明 ， 也 就 是 描述 程序 必须 满足 何 种 需求 的 文档 ( 或 便条 )。 这 样 以 后 就 很 容易 核实 
需求 是 否 确实 得 到 了 满足 。 不 过 很 多 程序 员 不 喜欢 撰写 报告 , 更 愿意 让 计算 机 蔡 他 们 完成 尽 可 能 
多 的 工作 。 好 消息 是 ， 你 可 使 用 Python 来 描述 需求 ， 并 让 解释 器 检查 是 否 满足 了 这 些 需 求 ! 
































注意 ”需求 类 型 众多 ， 包 括 诸 如 客户 满意 度 这 样 模糊 的 概念 。 本 节 的 重点 是 功能 需求 ， 即 程序 
必须 提供 哪些 功能 。 


这 里 的 理念 是 先 编写 测试 , 再 编写 让 测试 通过 的 程序 。 测 试 程序 就 是 需求 说 明 ， 可 帮助 确保 
程序 开发 过 程 紧 扣 这 些 需求 。 

来 看 一 个 简单 的 示例 。 假设 你 要 编写 一 个 模块 , 其 中 只 包含 一 个 根据 矩形 的 宽度 和 高 度 计算 
面积 的 函数 。 动 手 编写 代码 前 ,编写 一 个 单元 测试 ,其 中 包含 一 些 你 知道 答案 的 例子 。 这 个 测试 
程序 可 能 类 似 于 代码 清单 16-1 所 示 。 


代码 清单 16-1 简单 的 测试 程序 


from area import rect area 

height = 3 

width = 4 

correct answer = 12 

answer = rect area(height, width) 

if answer == correct answer: 
print('Test passed ') 

else: 
print('Test failed ') 


在 这 个 示例 中 , 我 调用 ( 尚未 编写 的 ) 函数 rect_area， 并 将 参数 height 和 width 分 别 设置 为 3 
和 4， 再 将 结果 与 正确 的 答案 ( 12 ) 进行 比较 "。 
如 果 接 下 来 (在 文件 area.py 中 ) 不 小 心 将 函数 rect_area 实 现 为 下 面 这 样 ， 并 尝试 运行 测试 
程序 ， 将 出 现 一 条 错误 消息 。 


def rect area(height, width): 
return height * height # 这 不 对 …… 


接 下 来 , 你 可 能 检查 代码 , 看 看 问题 出 在 什么 地 方 , 并 将 返回 的 表达 式 蔡 换 为 height* width。 

先 编写 测试 再 编写 代码 并 不 是 为 了 发 现 bug， 而 是 为 了 检查 代码 是 否 管用 。 这 有 点 像 古老 的 
禅 语 所 说 : 如 果 没 有 人 听 到 ， 就 认为 森林 中 的 树木 倒 下 时 没有 发 出 声音 吗 ? 当然 不 是 , 但 发 出 的 
声音 对 任何 人 都 没有 影响 。 对 代码 而 言 ， 问 题 就 是 :“ 如 果 不 测 试 ， 就 认为 它 什么 都 没 做 吗 ? ” 
抛 开 其 中 的 哲理 不 谈 ， 采取 下 面 的 态度 大 有 神 益 : 除非 有 相应 的 测试 ， 否 则 该 功能 就 并 不 存在 ， 
或 者 说 不 是 真正 意义 上 的 功能 。 这 样 你 就 能 名 正言 顺 地 证 明 它 确实 存在 ， 而 且 做 了 它 应 该 做 的 。 
这 不 仅 对 最 初 开发 程序 有 帮助 ， 对 以 后 扩展 和 维护 代码 也 有 帮助 。 















































































































































g) 当然， 只 测试 这 样 一 种 情况 并 不 能 让 你 确信 代码 是 正确 的 。 真 正 的 测试 程序 可 能 要 详尽 得 多 。 
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16.1.2 ”做 好 应 对 变化 的 准备 


自动 化 测试 不 仅 可 在 你 编写 程序 时 提供 极 大 的 帮助 ， 还 有 助 于 在 你 修改 代码 时 避免 累积 错 
误 , 这 在 程序 规模 很 大 时 尤其 重要 。 正 如 第 19 音 将 讨论 的 ， 你 必须 做 好 修改 代码 的 心理 准备 ， 而 
不 是 固守 既 有 代码 ， 但 修改 是 有 风险 的 。 修 改 代码 时 ， 常 常会 引入 一 两 个 意 想不到 的 bug。 如 果 
程序 设计 良好 (使 用 了 合适 的 抽象 和 封装 )， 修 改 带 来 的 影响 将 是 局 部 的 ， 只 会 影响 很 小 一 段 代 
码 。 这 意味 着 你 能 够 确定 bug 的 范围 ， 因 此 调试 起 来 更 容易 。 


代码 履 盖 率 


履 盖 率 (coverage ) 是 一 个 重要 的 测试 概念 。 运 行 测试 时 ， 很 可 能 达 不 到 运行 所 有 代码 的 
理想 状态 。( 实际 上 ， 最 理想 的 情况 是 ， 使 用 各 种 可 能 的 输入 检查 每 种 可 能 的 程序 状态 ， 但 这 
根本 不 可 能 做 到 。 ) 优 秀 测试 套件 的 目标 之 一 是 确保 较 高 的 履 盖 率 ， 为 此 可 使 用 履 盖 率 工具 ， 
它们 测量 测试 期 间 实 际 运 行 的 代码 所 占 的 比例 。 本 书 编写 期 间 ， 没 有 真正 的 Python 标准 履 盖 
率 工具 ， 但 如 果 在 网 上 使 用 “Python 测试 覆盖 率 ” 之 类 的 关键 字 进 行 搜索 ， 可 找到 一 些 相关 
的 工具 ， 其 中 之 一 是 Python 自 带 的 程序 trace.py。 你 可 从 命令 行 运行 它 ( 可 以 使 用 开关 -m， 这 样 
可 避免 查找 文件 的 麻烦 )， 也 可 将 其 作为 模块 导入 。 要 获取 有 关 其 用 法 的 帮助 信息 ， 可 使 用 开 
关 -help 来 运行 它 ， 也 可 在 解释 器 中 导入 这 个 模块 ， 再 执行 命令 help(trace)。 

你 可 能 觉得 详尽 地 测试 各 个 方面 让 人 不 堪 重 负 。 不 用 担心 ， 你 无 需 测 试 数 百 种 输入 和 状 
态 变量 组 合 ， 至 少 开始 的 时 候 不 用 。 在 测试 驱动 的 编程 中 ， 最 重要 的 一 点 是 在 编码 期 间 反复 
地 运行 方法 ( 函数 或 脚本 ) ， 以 不 断 获得 有 关 你 做 法 优 劣 的 反馈 。 如 果 以 后 要 进一步 确信 代码 
是 正确 的 (覆盖 率 也 很 高 ) ， 可 随时 添加 测试 。 

关键 在 于 ， 如 果 没 有 详尽 的 测试 集 ， 可 能 无 法 及 时 发 现 你 引入 的 bug， 等 你 发 现时 已 不 
知道 它们 是 怎么 引入 的 。 因 此 ， 如 果 没 有 良好 的 测试 套件 ， 要 找 出 错误 出 在 什么 地 方 将 困 
难得 多 。 看 不 到 打 过 来 的 源头 ， 你 就 无 法 避 开 它 。 要 确保 较 高 的 测试 覆盖 率 ， 方 法 之 一 是 
乘 承 测试 驱动 开发 的 理念 。 只 要 能 确保 先 编写 测试 再 编写 函数 ， 就 能 肯定 每 个 函数 都 是 经 
过 测试 的 。 















































16.1.3 ”测试 四 步 曲 


在 深入 介绍 编写 测试 的 细 广 之前, 先 来 看 看 测试 驱动 开发 过 程 的 各 个 阶段 ( 至 少 有 个 版 本 是 
这 样 的 )。 

(1) 确定 需要 实现 的 新 功能 。 可 将 其 记录 下 来 ， 再 为 之 编写 一 个 测试 。 

(2) 编写 实现 功能 的 框架 代码 ， 让 程序 能 够 运行 (不 存在 语法 错误 之 类 的 问题 ), 但 测试 依然 
无 法 通过 。 测试 失败 是 很 重要 的 ， 因为 这 样 你 才能 确定 它 可 能 失败 。 如 果 测 试 有 错误 ,导致 在 任 
何 情况 下 都 能 成 功 (这 样 的 情况 我 遇 到 过 很 多 次 )， 那 么 它 实 际 上 什么 都 没有 测试 。 不 断 重复 这 
个 过 程 : 确定 测试 失败 后 ， 再 试图 让 它 成 功 。 
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(3) 编写 让 测试 刚好 能 够 通过 的 代码 。 在 这 个 阶段 ， 无 需 完全 实现 所 需 的 功能 ， 而 只 要 让 测 
试 能 够 通过 即 可 。 这 样 ， 在 整个 开发 阶段 ， 都 能 够 让 所 有 的 测试 通过 ( 首次 运行 测试 时 除外 )， 
即便 是 刚 着 手 实现 功能 时 亦 如 此 。 

(4) 改进 ( 重 构 ) 代码 以 全 面 而 准确 地 实现 所 需 的 功能 ， 同 时 确保 测试 依然 能 够 成 功 。 

提交 代码 时 ,必须 确保 它们 处 于 健康 状态 ， 即 没有 任何 测试 是 失败 的 。 测试 驱动 编程 倡导 者 
都 是 这 么 说 的 。 我 有 时 会 在 当前 正在 编写 的 代码 处 留 下 一 个 失败 的 测试 , 作为 提醒 自己 的 待 办 事 
项 或 未 完事 项 。 然 而 , 与 人 合作 开发 时 ,这 种 做 法 真 的 很 糟糕 。 在 任何 情况 下 ， 都 不 应 将 存在 失 
败 测 试 的 代码 提交 到 公共 代码 库 。 






























































16.2 ”测试 工具 


你 可 能 觉得 , 编写 大 量 测试 来 确保 程序 的 每 个 细节 都 没 问 题 很 繁琐 。 好 消息 是 标准 库 可 助 你 
一 臂 之 力 。 有 两 个 杰出 的 模块 可 替 你 自动 完成 测试 过 程 。 
D unittest: 一 个 通用 的 测试 框架 。 
口 doctest : 一 个 更 简单 的 模块 ,是 为 检查 文档 而 设计 的 , 但 也 非常 适合 用 来 编写 单元 测试 。 
下 面 先 来 看 看 doctest， 从 它 开始 是 个 非常 不 错 的 选择 。 









































16.2.1 doctest 


本 书 的 示例 代码 都 是 直接 从 交互 式 解释 器 中 摘 取 出 来 的 。 我 发 现 , 在 演示 工作 原理 方面 ,这 
是 一 种 卓有成效 的 方式 ; 而 且 很 容易 对 这 样 的 示例 进行 测试 。 实 际 上 ,交互 式 会 话 是 一 种 很 有 用 
的 文档 ,可 将 其 放 在 文档 字符 串 中 。 例 如 ， 假 设 我 编写 了 一 个 计算 平方 的 函数 ， 并 在 其 文档 字符 
串 中 添加 了 一 个 示例 。 


def square(x): 


















































计算 平方 并 返回 结果 
>>> square(2) 

4 

>>> square(3) 


return x* x 
如 你 所 见 , 我 还 在 文档 字符 串 中 添加 了 一 些 文字 。 这 与 测试 有 什么 关系 呢 ? 假设 函 数 square 
是 在 模块 my_math《〈 即 文件 my_math.py ) 中 定义 的 ， 就 可 在 模块 未 尾 添加 如 下 代码 : 


if name ==" main “: 
import doctest，my_math 
doctest.testmod(my_math) 


添加 的 代码 不 多 ， 只 是 导入 模块 doctest 和 模块 my_ math 本 身 ， 青 运行 模块 doctest 中 的 函数 
testmod( 表示 对 模块 进行 测试 )。 这 有 什么 用 呢 ? 我 们 来 试 一 试 。 
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$ python my_math.py 
$ 





看 起 来 什么 都 没 发 生 ， 但 这 是 件 好事 。 冰 数 doctest .testmod 读 取 模 块 中 的 所 有 文档 字符 串 ， 
查找 看 起 来 像 是 从 交互 式 解释 器 中 摘 取 的 示例 ， 再 检查 这 些 示例 是 否 反 映 了 实际 情况 。 















































注意 ”如果 这 里 编写 的 是 真实 函数 ， 我 将 (或 者 说 应 该 ) 根据 前 面 制 定 的 规则 先 编 写 文 档 字符 
串 ， 再 使 用 doctest 运 行 脚 本 看 看 测试 是 否 会 失败 ， 然 后 添加 刚好 让 测试 得 以 通过 的 代码 
( 如 使 用 测试 语句 来 处 理 文档 字符 囊 中 的 具体 输入 )， 接 下 来 确保 实现 是 正确 的 。 另 一 方 
面 ， 如 果 完 全 践 行 “ 先 测试 再 编码 ”的 编程 理念 ， 框 架 unittest ( 将 在 后 面 讨论 ) 可 能 
能 够 更 好 地 满足 你 的 需求 。 


为 获得 更 多 的 输出 ， 可 在 运行 脚本 时 指定 开关 -v( verbose， 意 为 详尽 )。 
$ python my math.py -v 


这 个 命令 将 生成 如 下 输出 : 


Running my math. doc 

0 of 0 examples failed in my math. doc 
Running my _math.square. doc 

Trying: square(2) 

Expecting: 4 

Ok 


Trying: square(3 
Expecting: 9 
ok 
0 of 2 examples failed in my math.square. doc _ 
1 items had no tests: 

test 
1 items passed all tests: 
2 tests in my math.square 
2 tests in 2 items. 
2 passed and 0 failed. 
Test passed. 


如 你 所 见 ， 幕 后 发 生 了 很 多 事情 。 函 数 testmod 检 查 模块 的 文档 字符 串 〈 如 你 所 见 ， 其 中 未 
包含 任何 测试 ) 和 函数 的 文档 字符 串 ( 包含 两 个 测试 ， 它 们 都 成 功 了 )。 

有 测试 在 手 ， 就 可 放心 地 修改 代码 了 。 假设 要 使 用 Python 和 客运 算 符 而 不 是 乘法 运算 符 ， 即 将 
x * x 蔡 换 为 x ** 2。 你 对 代码 进行 编辑 ， 但 不 小 心 忘记 了 把 第 2 个 x 改 为 2， 结 果 变 成 了 x ** x。 
请 尝试 这 样 做 ， 再 运行 脚本 对 代码 进行 测试 。 结 果 如 何 呢 ? 输出 如 下 : 


六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 玉米 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 












































Failure in example: square(3) 
from line #5 of my math.square 
Expected: 9 


Got: 27 
六 六 六 六 六 六 六 六 六 六 六 玉米 六 六 六 六 六 六 六 玉米 六 玉米 六 玉米 六 玉米 六 玉米 六 玉米 六 站 六 六 玉米 六 玉米 六 玉米 六 玉米 六 玉米 六 玉米 六 玉米 米 玉米 米 
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1 items had failures: 

1 of 2 in my math.square 
***Test Fai]ed 六 六 六 
1 failures. 


捕捉 到 了 bug， 并 清楚 地 指出 错误 出 在 什么 地 方 。 现 在 修复 这 个 问题 应 该 不 难 。 





警告 ”不 要 育 目 信任 测试 ， 而 且 务必 要 测试 足够 多 的 情形 。 如 你 所 见 ， 使 用 square(2) 的 测试 没 
有 捕捉 到 bug， 因 为 x == 2 时 ，X ** 2 和 X ** X 等 价 ! 


有 关 模 块 doctest 的 详细 信息 ， 请 参阅 “Python 库 参 考 手册 ”。 


16.2.2 unittest 


虽然 doctest 使 用 起 来 很 容易 , 但 unittest ( 基于 流行 的 Java 测 试 框架 JUnit ) 更 灵活 、 更 强大 。 
尽管 相 比 于 doctest，unittest 的 学 习 门 槛 可 能 更 高 , 但 还 是 建议 你 看 看 这 个 模块 ,因为 它 让 你 能 
够 以 结构 化 方式 编写 庞大 而 详尽 的 测试 集 。 

这 里 只 进行 简要 的 介绍 。unittest 包 含 的 一 些 功能 在 大 多 数 测试 中 都 不 需要 。 








提示 。 标准 库 包 含 另外 两 个 有 趣 的 单元 测试 工具 : pytest ( pytest.org ) 和 nose (nose.readthed ocs.io )。 


下 面 来 看 一 个 简单 的 示例 。 假 设 你 要 编写 一 个 名 为 my_math 的 模块 ， 其 中 包含 一 个 计算 乘积 
的 函数 product。 从 哪里 着 手 呢 ? 当然 是 先 使 用 模块 unittest 中 的 TestCase 类 编写 一 个 测试 (存储 
在 文件 test_my_math.py 中 )， 如 代码 清单 16-2 所 示 。 


代码 清单 16-2 ”一 个 使 用 框架 unittest 的 简单 测试 


import unittest，my_math 

















class ProductTestCase(unittest.TestCase): 


def test integers(self): 
for x in range(-10, 10): 
for y in range(-10, 10): 
p = my_math.product(x, y) 
self.assertEqual(p, x * y, 'Integer multiplication failed') 


def test floats(self): 
for x in range(-10, 10): 
for y in range(-10, 10): 
Xx=x/10 
y=y/10 
p = my_math.product(x, y) 
self.assertEqual(p, x * y, 'Float multiplication failed') 


if name == ”main ': unittest.main() 
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函数 unittest.main 负 责 奉 你 运行 测试 : 实例 化 所 有 的 TestCase 子 类 ， 并 运行 所 有 名 称 以 test 
打头 的 方法 。 





提示 ”如果 你 定义 了 方法 setUp 和 tearDown， 它 们 将 分 别 在 每 个 测试 方法 之 前 和 之 后 执行 。 你 可 
使 用 这 些 方法 来 执行 适用 于 所 有 测试 的 初始 化 代码 和 清理 代码 ， 这 些 代 码 称 为 测试 夹具 
( test fixture )。 


运行 这 个 测试 脚本 将 引发 异常 ， 指 出 模块 my 虽 耻 小 从 全 诸如 assertEqual 等 方法 检 
查 指定 的 条 件 ， 以 判断 指定 的 测试 是 成 功 还 是 失败 了 。TestCase 类 还 包含 很 多 与 之 类 似 的 方法 ， 
assertIsNotNone 和 assertAlmostEqual。 

模块 unittest 区 分 错误 和 失败 。 错 误 指 的 是 引发 了 异常 ， 而 失败 是 调用 failunless 等 方法 的 
结果 。 接 下 来 需要 编写 框架 代码 ， 以 消除 错误 一 一 只 留 下 失败 。 这 意味 着 只 需 创 建 包含 如 下 内 容 
的 模块 my_math( 即 文件 my_math.py ): 


def product(x, y): 
pass 


都 是 框架 代码 ， 没 什么 意思 。 如 果 现 在 运行 前 面 的 测试 ， 将 出 现 两 条 FAIL 消 息 ， 如 下 所 示 : 







































































Traceback (most recent call last): 
File "test my math.py", line 17, in testFloats 
self.assertEqual(p, x * y, 'Float multiplication failed ') 
AssertionError: Float multiplication failed 


Traceback (most recent call last): 
File "test my math.py", line 9, in testIntegers 
self.assertEqual(p, x * y, 'Integer multiplication failed') 
AssertionError: Integer multiplication failed 








Ran 2 tests in 0.001s 


FAILED (failures=2) 


这 完全 在 意料 之 中 , 没什么 好 担心 的 。 现 在 你 至 少 知道 , 测试 真 的 与 代码 关联 起 来 了 一 一 代 
码 不 对 ， 因 此 测试 失败 。 好 极 了 。 
接 下 来 需要 让 代码 管用 。 就 这 个 示例 而 言 ， 需 要 做 的 工作 不 多 : 


def product(x, y): 
return x*y 


现在 输出 如 下 : 
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Ran 2 tests in 0.015s 
OK 


开头 的 两 个 句点 表示 测试 。 如 果 你 仔细 观察 失败 时 乱七八糟 的 输出 , 将 发 现 开 头 也 有 两 个 字 
符 : 两 个 [， 表示 两 次 失败 。 
出 于 好 玩 ， 请 修改 函数 product， 使 其 在 参数 为 7 和 9 时 不 能 通过 测试 。 
def product(x, y): 
if x == 7 and y == 9: 
return "An insidious bug has surfaced!" 


else: 
return x *y 


如 果 再 次 运行 前 面 的 测试 脚本 ， 将 有 一 个 测试 失败 。 


Traceback (most recent call last): 
File "test my math.py", line 9, in testIntegers 
self.assertEqual(p, x * y, 'Integer multiplication failed') 
AssertionError: Integer multiplication failed 


Ran 2 tests in 0.005s 


FAILED (failures=1) 


提示 。 有关 更 复杂 的 面向 对 象 代 码 测试 ， 请 参阅 模块 unittest.mock。 
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测试 显然 很 重要 ， 而 对 于 有 些 复 杂 的 项 目 来 说 , 测试 绝对 是 生死 侯 关 的 。 就 算 你 不 想 编写 结 
构 化 的 单元 测试 套件 ,也 必须 以 某 种 方式 运行 程序 ,看 看 它 是 否 管用 。 编 写 大 量 代码 前 具备 这 种 
能 力 可 在 以 后 避免 大 量 的 工作 和 麻烦 。 

要 探索 程序 , 还 有 其 他 一 些 方式 ,下 面 将 介绍 两 个 工具 : 源 代码 检查 和 性 能 分 析 。 源 代码 检 
查 是 一 种 发 现代 码 中 常见 错误 或 问题 的 方式 (有 点 像 静 态 类 型 语言 中 编译 器 的 作用 , 但 做 的 事情 
要 多 得 多 )。 人 性 能 分 析 指 的 是 搞 清楚 程序 的 运行 速度 到 底 有 多 快 。 之 所 以 按 这 里 的 顺序 讨论 这 些 
主题 , 是 为 了 遵循 “使 其 管用 , 使 其 更 好 , 使 其 更 快 ” 这 条 古老 的 规则 。 单 元 测试 可 让 程序 管用 ， 
源 代码 检查 可 让 程序 更 好 ， 而 性 能 分 析 可 让 程序 更 快 。 
























































16.3.1 使 用 PyChecker 和 PyLint 检 查 源 代码 
长 期 以 来 ，PyChecker ( pychecker.sf.net ) 都 是 用 于 检查 Python 源 代 码 的 唯一 工具 ， 能 够 找 出 
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诸如 给 函数 提供 的 参数 不 对 等 错误 。( 当然 ， 标 准 库 中 还 有 tabnanny， 但 没 那么 强大 ， 只 检查 缩 
进 是 否 正 确 。) 之 后 出 现 了 PyLint ( pylint.org )， 它 支持 PyChecker 提 供 的 大 部 分 功能 ， 还 有 很 多 其 
他 的 功能 ， 如 变量 名 是 否 符合 指定 的 命名 约定 、 你 是 否 遵守 了 自己 的 编码 标准 等 。 

安装 这 些 工 具 很 容易 。 很 多 包 管 理 器 系统 ( 如 Debian APT 和 Gentoo Portage ) 都 提供 了 它们 ， 
可 直接 从 相应 的 网 站 下 载 。 要 使 用 Distutils 来 安装 ， 可 使 用 如 下 标准 命令 。 

python setup.py install 

对 于 PyLint， 也 可 使 用 pip 来 安装 。 

安装 这 些 工具 后 ， 可 以 命令 行 脚本 的 方式 运行 它们 ( PyChecker 和 PyLint 对 应 的 脚本 分 别 为 
pychecker 和 pylint )， 也 可 将 其 作为 Python 模块 〈 名 称 与 前 面相 同 )。 























注意 在 Windows 中 ， 从 命令 行 运行 这 两 个 工具 时 ， 将 分 别 使 用 批 处 理 文件 pycheckerbat 和 
pylint.bat。 因 此 ， 你 可 能 需要 将 这 两 个 文件 加 入 环境 变量 PATH 中 ,， 这样 才 能 从 命令 行 执行 
命令 pychecker 和 pylint。 


要 使 用 PyChecker 来 检查 文件 ， 可 运行 这 个 脚本 并 将 文件 名 作为 参数 ， 如 下 所 示 : 
pychecker file1.py file2.py ... 
使 用 PyLint 检 查 文件 时 ， 需 要 将 模块 〈 或 包 ) 名 作为 参数 : 
pylint module 
要 获悉 有 关 这 两 个 工具 的 详细 信息 ， 可 使 用 命令 行 开 关 -h 来 运行 它们 。 运 行 这 两 个 命令 时 ， 
输出 可 能 非常 多 ( pylint 的 输出 通常 比 pychecker 的 多 )。 这 两 个 工具 都 是 可 高 度 配置 的 ， 你 可 指 
定 要 显示 或 隐藏 哪些 类 型 的 警告 ， 有关 这 方面 的 详细 信息 ， 请 参阅 相关 的 文档 。 
结束 对 检查 器 的 讨论 之 前 , 来 看 看 如 何 结合 使 用 检查 器 和 单元 测试 。 毕 竟 ， 如 果 能 够 将 它们 
(或 其 中 之 一 ) 作为 测试 套件 中 的 测试 自动 运行 ， 并 在 没有 错误 时 悄 无 声息 地 指出 测试 成 功 了 ， 
那 就 太 好 了 。 这 样 ， 测 试 套件 不 仅 测试 了 功能 ， 还 测试 了 代码 质量 。 
PyChecker 和 PyLint 都 可 作为 模块 ( 分别 是 pychecker.checker 和 pylint.lint ) 导入 ,但 它们 
并 不 是 为 了 以 编程 方式 使 用 而 设计 的 。 必 人 pychecker.checker 时 , 它 会 检查 后 续 代 码 ( 包括 导入 
的 模块 ), 并 将 警告 打印 到 标准 输出 。 模块 pylint.1int 包 含 一 个 文档 中 没有 介绍 的 函数 Run，, 这 个 
函数 是 供 脚本 pylint 本 身 使 用 的 。 它 也 将 警告 打印 出 来 ， 而 不 是 以 某 种 方式 将 其 返回 。 我 建议 不 
去 解决 这 些 问题 ,就 以 原本 的 方式 使 用 PyChecker 和 PyLint, 即将 其 作为 命令 行 工具 使 用 。 在 Python 
中 ， 可 通过 模块 subprocess 来 使 用 命令 行 工 具 。 代 码 清单 16-3 在 前 面 的 测试 脚本 示例 中 添加 了 两 
个 代码 检查 测试 。 


代码 清单 16-3 ”使 用 模块 subprocess 调 用 外 部 检查 器 


import unittest，my_math 
from subprocess import Popen, PIPE 

































































class ProductTestCase(unittest.TestCase): 
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# 在 这 里 插入 以 前 的 测试 


def test with PyChecker(self): 

cmd = 'pychecker', '-0', my math. file .rstrip('c') 
pychecker = Popen(cmd, stdout=PIPE, stderr=PIPE) 
self.assertEqual(pychecker.stdout.read(), '') 


def test with PyLint(self): 

cmd = 'pylint’, '-rn', my math’ 

pylint = Popen(cmd, stdout=PIPE, stderr=PIPE) 
self.assertEqual(pylint.stdout.read(), '') 

















if name == "main ': unittest.main() 

调用 检查 器 脚本 时 ， 我 指定 了 一 些 命令 行 开关 ， 以 免 无 关 的 输出 干扰 测试 。 对 于 pychecker， 
我 指定 了 开关 -0 ( quiet， 意 为 静默 ); 对 于 pylint， 我 指定 了 开关 -rn ( 其 中 n 表 示 no ) 以 关闭 报 
告 ， 这 意味 着 将 只 显示 警告 和 错误 。 

命令 pylint 直 接 将 模块 名 作为 参数 ， 因 此 执行 起 来 很 简单 。 

为 让 pychecker 正 确 地 运行 ， 我 们 需要 获取 文件 名 。 为 此 ， 我 使 用 了 模块 my_math 的 
_file _ ， 并 使 用 rstrip 将 文件 名 末尾 可 能 包含 的 c 删 掉 〈 因为 模块 可 能 存储 在 .pyc 文 件 中 )。 

为 让 PyLint 叱 声 , 我 稍微 修改 了 模块 my_math ( 而 不 是 通过 配置 , 让 PyLint 在 面 对 变 量 名 太 短 、 
缺失 修订 号 和 文档 字符 串 等 情况 时 一 声 不 咏 )。 
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一 个 简单 的 数学 模块 
_ revision = ' 0.1 


def product(factor1, factor2): 
'The product of two numbers’ 
return factor1 * factor2 


如 果 现 在 运行 这 些 测试 , 将 不 会 出 现任 何 错误 。 请 随意 尝试 这 些 代码 ,看 看 能 否 让 检查 器 报 
告 错 误 , 同时 确保 功能 测试 依然 管用 ( 可 以 不 使 用 PyChecker 或 PyLint 使 用 其 中 一 个 可 能 就 足 
够 了 )。 例如， 尝试 将 参数 改 回 x 和 y，PyLint 将 抗议 变量 名 太 短 。 或 者 在 return 语 句 后 面 添 加 
print('Hello，world!')， 进 而 两 个 检查 器 都 将 抗议 ( 抗议 的 理由 可 能 不 同 )， 这 合情合理 。 


自动 检查 的 局 限 性 : 有 结束 的 时 候 吗 


虽然 PyChecker 和 PyLint 等 自动 检查 器 在 发 现 问题 方面 很 出 色 ， 但 也 存在 局 限 性 。 它 们 虽 
然 能 够 发 现 各 种 错误 和 问题 ， 但 并 不 知道 程序 的 终极 目标 ， 因 此 总 是 需要 量 身 定制 的 单元 测 
试 。 然 而 ， 除 了 这 个 显而易见 的 局 限 外 ， 自 动 检查 器 还 有 其 他 局 限 。 只 要 你 喜欢 有 些 奇 怪 的 
理论 ， 就 可 能 对 根据 终止 定理 这 一 计算 理论 得 出 的 结论 感 兴趣 。 来 看 一 个 可 以 像 下 面 这 样 运 
行 的 虚构 的 检查 程序 : 

halts.py myprog.py data.txt 
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你 可 能 猜 到 了 ， 这 个 检查 器 检查 程序 myprog.py 将 data.txt 作 为 输入 时 的 行为 。 我 们 只 想 检 
查 一 点 : 无 限 循 环 (或 与 之 等 价 的 情况 )。 换 而 言 之 ， 程 序 halts.py 需 要 判断 myprog.py 将 data.txt 
作为 输入 时 是 否 会 停止 (终止 ) 。 鉴 于 市 面 上 的 检查 程序 能 够 分 析 代 码 ， 并 确定 各 种 变量 必须 
是 什么 类 型 才能 确保 程序 正确 运行 ,检测 像 无 限 循环 这 样 的 情况 不 是 小 菜 一 碟 吗 ? 不 是 这 样 
的 ， 至 少 总 体 而 言 不 是 这 样 的 。 

别 光 听 我 说 一 一 推理 其 实 非常 简单 。 假 设 终止 检查 器 halts 管 用 ; 为 简单 起 见 ， 同 时 假设 
它 是 一 个 Python 模 块 。 现 在 ， 假 设 我 们 编写 了 下 面 这 个 暗藏 机 关 的 小 程序 (trouble.py ) 。 


import halts, sys 

name = sys.argv[1] 

if halts.check(name, name): 
while True: pass 


它 使 用 模块 halts 的 功能 来 检查 通过 第 一 个 命令 行 参数 指定 的 程序 将 自身 作为 输入 时 是 否 
会 终止 。 例如 ， 可 以 像 下 面 这 样 来 运行 它 : 
trouble.py myprog.py 


这 将 判断 myprog.py 将 myprog.py( 即 自 身 ) 作为 输入 时 是 否 会 终止 。 如 果 结 论 是 会 终止 ， 
trouble.py 将 进入 无 限 循 环 ; 否则 它 将 就 此 结束 ( 即 终 止 ) 。 

现在 来 看 下 面 的 情形 : 

halts.py trouble.py trouble.py 


这 里 检查 trouble.py 将 trouble.py ( 即 自身 ) 作为 输入 时 是 否 会 终止 。 这 本 身 不 难 理解 。 但 
结论 是 什么 呢 ? 如 果 halts.py 说 “会 ”， 即 trouble.py trouble.py 会 终止 ， 则 根据 定义 ， 
trouble.py trouble.py 将 不 会 终止 。 如 果 说 “不 会 ”， 也 将 遇 到 同样 ( 相悖 ) 的 问题 。 无 论 halts.py 
怎么 说 ， 都 注定 是 错 的 ， 并 且 没 法 解决 这 个 问题 。 我 们 最 初 假定 这 个 检查 器 管用 ， 而 现在 遇 
到 了 矛盾 ， 这 意味 着 最 初 的 假设 是 错 的 。 

当然 ， 这 并 不 意味 着 无 法 检测 出 任何 类 型 的 无 限 循 环 ( 例 如， 没有 break、raise 或 return 
的 while True 循 环 就 肯定 是 无 限 循 环 ) ， 而 只 是 说 无 法 检测 出 所 有 的 无 限 循 环 。 遗 憾 的 是 ， 很 
多 与 此 类 似 的 情况 也 无 法 全 部 自动 分 析出 来 " 。 因 此 ， 即 便 有 PyChecker 和 PyLint 这 样 出 色 的 
工具 ， 依 然 需 要 依赖 于 手工 调试 ， 而 这 要 求 我 们 知道 程序 的 特殊 之 处 。 另 外 ， 我 们 可 能 应 该 
尽力 避免 trouble.py 这 样 暗藏 机 关 的 程序 。 








16.3.2 ”性 能 分 析 


让 代码 管用 ， 还 可 能 让 它 比 最 初 更 好 之 后 ， 也 许 该 来 让 它 更 快 了 。 然 而 ， 或 许 不 该 这 样 做 。 
正如 高 德 纳 转述 C.A.R. Hoare 的 话 时 指出 的 : 在 编程 中 , 不 成 熟 的 优化 是 万 恶 之 源 。 不 论 优 化 诀 
穿 再 巧妙 ， 如 果 根 本 用 不 着 ， 就 不 用 关心 了 。 如 果 程 序 的 速度 已 经 足够 快 ， 代 码 清 晰 、 简 单 易 懂 



































Qa 请 参阅 David Harel 的 著作 Computers Ltd: What They Really Cany Do， 其 中 包含 大 量 有 关 这 个 主题 的 有 趣 内 容 。 
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的 价值 可 能 远 远 胜 过 细微 的 速度 提升 。 毕 竟 几 个 月 后 就 可 能 有 速度 更 快 的 硬件 面世 。 

但 如 果 程 序 的 速度 达 不 到 你 的 要 求 ， 必 须 优 化 ,就 必须 首先 对 其 进行 性 能 分 析 。 这 是 因为 除 
非 程序 非常 简单 ， 否 则 很 难 猜 到 瓶颈 在 什么 地 方 。 如 果 不 知 道 是 什么 让 程序 速度 变 缓 ,， 优化 就 可 
能 南 辕 北 国 。 

标准 库 包 含 一 个 卓越 的 性 能 分 析 模 块 profile, 还 有 一 个 速度 更 快 C 语 言 版 本 , 名 为 cProfile。 
这 个 性 能 分 析 模 块 使 用 起 来 很 简单 ， 只 需 调 用 其 方法 run 并 提供 一 个 字符 串 参 数 。 

>>> import CPTofile 


>>> from my_math import pToduct 
>>> cprofile.run('product(1, 2)') 






































这 将 输出 如 下 信息 : 各 个 函数 和 方法 被 调用 多 少 次 以 及 执行 它们 花费 了 多 长 时 间 。 如 果 通 过 
第 二 个 参数 向 run 提 供 一 个 文件 名 ( 如 'my_math.profile' ), 分 析 结 果 将 保存 到 这 个 文件 中 。 然后 ， 
就 可 使 用 模块 pstats 来 研究 分 析 结 果 了 。 


>>> import pstats 
>>> p = pstats.Stats( my math.profile') 











通过 使 用 这 个 Stats 对 象 , 可 以 编程 方式 研究 分 析 结果 。 有 关 这 个 API 的 详情 ， 请 参阅 标准 库 
文档 。 














提示 标准 库 还 包含 一 个 名 为 timeit 的 模块 ,提供 了 一 种 对 小 段 Python 代 码 的 运行 时 间 进行 测试 
的 简单 方式 。 在 进行 详尽 的 性 能 分 析 方 面 ， 模 块 timeit 的 用 处 不 大 ,但 在 只 需 确 定 一 段 
代码 花 了 多 长 时 间 才 执行 完毕 时 ， 这 是 一 个 很 不 错 的 工具 。 手 工 测量 的 结果 通常 不 准确 
( 除非 你 对 这 方面 了 如 指 掌 )， 因 此 使 用 timeit 通 常 是 更 好 的 选择 。 





如 果 你 非常 在 乎 程序 的 速度 ,可 添加 一 个 这 样 的 单元 测试 : 对 程序 进行 性 能 分 析 并 要 求 满足 
特定 的 要 求 ( 如 程序 执行 时 间 超 过 1 秒 时 ,测试 就 将 失败 )。 这 做 起 来 可 能 很 有 趣 , 但 不 推荐 这 样 
做 , 因为 迷恋 性 能 分 析 很 可 能 让 你 忽略 真正 重要 的 事情 ,如 清晰 而 易于 理解 的 代码 。 如 果 程 序 的 
速度 非常 慢 ， 你 迟早 会 发 现 ， 因 为 测试 将 需要 很 久 才能 运行 完毕 。 














16.4 ”小 结 


本 章 介 绍 了 如 下 重要 主题 。 

口 测试 驱动 编程 : 大 致 而 言 ， 测 试 驱 动 编程 意味 着 先 测试 再 编码 。 有 了 测试 ， 你 就 能 信心 

满 满 地 修改 代码 ， 这 让 开发 和 维护 工作 更 加 灵活 。 

口 模块 doctest 和 unittest : 需要 在 Python 中 进行 单元 测试 时 ， 这 些 工具 必 不 可 少 。 模 块 
doctest 设 计 用 于 检查 文档 字符 串 中 的 示例 ， 但 也 可 轻松 地 使 用 它 来 设计 测试 套件 。 为 让 
测试 套件 更 灵活 、 结 构 化 程度 更 高 ， 框 架 unittest 很 有 帮助 。 

口 PyChecker 和 PyLint: 这 两 个 工具 查看 源 代码 并 指出 潜在 ( 和 实际 ) 的 问题 。 它 们 检查 代 
码 的 方方面面 一 一 从 变量 名 太 短 到 永远 不 会 执行 的 代码 段 。 你 只 需 编 写 少 量 的 代码 ， 就 
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可 将 它们 加 入 测试 套件 ， 从 而 确保 所 有 修改 和 重 构 都 遵循 了 你 采用 的 编码 标准 。 


口 性 能 分 析 : 如 果 你 很 在 乎 速度 ， 并 想 对 程序 进行 优化 〈 仅 当 绝对 必要 时 才 这 样 做 )， 应 首 16 
先进 行 性 能 分 析 : 使 用 模块 profile 或 cprofile 来 找 出 代码 中 的 瓶颈 。 











16.4.1 本 章 介 绍 的 新 函数 

函 数 描 述 
doctest. testmod(module) 仿 查 文档 字符 串 中 的 示例 还 接受 很 多 其 他 的 参数 ) 
unittest.main() 











运行 当前 模块 中 的 单元 测试 
profile.run(stmt[,filename]) 




















执行 语句 并 对 其 进行 性 能 分 析 ; 可 将 分 析 结 果 保 存 到 参数 人 lename 指 定 的 文件 


| 





16.4.2 ”预告 








至 此 ,你 知道 了 使 用 Python 语 言及 其 标准 库 能 够 完成 的 各 种 任务 ,还 知道 了 如 何 分 析 并 调整 
代码 ( 如 果 你 不 顾 我 的 警告 ,依然 要 进行 性 能 分 析 的 话 )。 如 果 你 觉得 
级 工具 ,将 “前 盖 ” 


觉得 这 些 还 不 够 ， 就 该 拿 起 低 
前 盖 ” 打 开 并 对 “引擎 ”进行 调整 。 


扩展 Python 





























Python 什么 都 能 做 ， 真 的 是 这 样 。 这 门 语言 功能 强大 ， 但 有 时 候 速度 有 点 慢 。 例 如 ， 如 果 要 
编写 模拟 某 种 核反应 的 程序 或 为 下 一 部 《星球 大 战 》 电 影 洽 染 图 形 ， 企 图 使 用 Python 来 编写 这 样 
的 高 性 能 代码 可 能 不 是 很 好 的 选择 。Python 的 目标 是 易于 使 用 以 及 帮助 提高 开发 速度 ， 这 种 灵活 
性 是 以 牺牲 效率 为 代价 的 。 对 大 多 数 常见 的 编程 任务 来 说 ，Python 无 疑 足 够 快 ， 但 如 果 你 真 的 很 
在 乎 速度 ，C、C++、Java 和 Julia 等 语言 通常 要 快 好 几 个 数量 级 。 

































































17.1 和 鱼 和 能 掌 兼 得 


对 于 坚信 速度 至 上 的 读者 ， 我 并 不 鼓励 你 只 使 用 C 语 言 进行 开发 。 虽 然 只 使 用 C 语 言 能 提高 
阻 序 本 身 的 速度 ， 但 肯定 会 降低 编程 速度 。 因 此 你 需要 考虑 哪 一 点 更 重要 : 是 快速 编写 好 程序 ， 
还 是 很 久 以 后 终于 编写 出 了 一 个 速度 极 快 的 程序 。 如 果 Python 的 速度 足以 满足 需求 ， 使 用 C 等 低 
级 语言 带 来 的 痛苦 将 让 这 样 的 选择 毫 无 意义 〈 除非 还 有 其 他 需求 ， 比 如 程序 将 在 不 适合 使 用 
Python 的 般 入 式 设备 中 运行 )。 

本 章 讨论 确实 需要 进一步 提升 速度 的 情形 。 在 这 种 情况 下 , 最 佳 的 解决 方案 可 能 不 是 完全 转 
向 C 语 言 (或 其 他 中 低级 语言 )， 我 建议 你 采用 下 面 的 方法 ( 这 可 满足 众多 的 速度 至 上 需求 )。 

(1) 使 用 Python 开发 原型 ( 有关 原 型 开发 的 详细 信息 ， 请 参阅 第 19 章 )。 

(2) 对 程序 进行 性 能 分 析 以 找 出 瓶颈 ( 有关 测 试 ， 请 参阅 第 16 章 )。 

(3) 使 用 C (或 者 Ct++、C#、Java、Fortran 等 ) 扩展 重 写 瓶 颈 部 分 。 

这 样 得 到 的 架构 (包含 一 个 或 多 个 C 语 言 组 件 的 Python 框架 ) 将 非常 强大 ， 因 为 它 兼 具 这 两 
门 语言 的 优点 。 关 键 在 于 选择 正确 的 工具 来 完成 每 项 任务 , 这 样 既 能 获得 使 用 高 级 语言 (Python ) 
开发 复杂 系统 的 好 处 ， 又 能 使 用 低级 语言 (C ) 来 开发 较 小 ( 还 可 能 较 简 单 ) 但 速度 至 关 重 要 的 
组 件 。 
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过 






































注意 ”还 有 其 他 让 你 转 而 求助 于 C 语 言 的 原因 。 例 如 ， 如 果 要 编写 与 怪异 硬件 交互 的 低级 代码 ， 
你 几乎 别 无 选择 。 





如 果 编 码 前 就 知道 系统 的 哪 部 分 将 是 瓶颈 , 可 以 ( 而且 可 能 应 该 ) 在 设计 原型 时 就 确保 可 轻 
松 地 蔡 换 这 些 关键 部 分 。 对 于 这 个 观点 ， 可 能 使 用 下 面 的 提示 来 阐述 更 合适 。 
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提示 “将 潜在 的 瓶颈 封装 起 来 。 














最 终 你 可 能 发 现 并 不 需要 使 用 C 扩 展 来 替换 这 些 瓶 颈 〈 这 可 能 是 因为 运行 程序 的 计算 机 的 速 
度 更 高 了 )， 但 至 少 存 在 选择 的 空间 。 

扩展 能 够 找到 用 武之 地 的 另 一 种 常见 情形 是 遗留 代码 。 你 可 能 想 重用 一 些 代码 , 但 这 些 代码 
是 使 用 其 他 语言 (如 C ) 编写 的 。 在 这 种 情况 下 ， 可 将 这 些 代码 “包装 ”起 来 〈 编写 一 个 提供 合 
适 接口 的 小 型 C 语 言 库 )， 并 使 用 这 个 包装 器 来 创建 Python 扩展 。 

在 接 下 来 的 几 节 中 ， 我 将 简要 地 介绍 如 何 扩展 Python 的 经 典 C 语 言 实现 ( 为 此 可 手工 编写 所 
有 的 代码 ， 也 可 使 用 工具 SWIG )， 以 及 如 何 扩展 其 他 两 种 实现 : Jython 和 IronPython。 为 外 ， 还 
将 讨论 访问 外 部 代码 的 其 他 方式 。 















































反 过 来 


本 章 着 重 介绍 使 用 编译 型 语言 为 Python 程 序 编 写 扩 展 。 但 别 忘 了 ， 下 面 的 做 法 也 有 用 武 
之 地 : 使 用 编译 型 语言 编写 程序 ， 并 在 其 中 嵌入 Python 解 释 器 来 执行 少量 的 脚本 和 扩展 。 在 
这 种 情况 下 ， 谱 入 Python 追 求 的 不 是 速度 而 是 灵活 性 。 从 很 多 方面 说 ， 这 与 编写 编译 型 扩展 
的 目的 是 一 样 的 ， 也 是 为 了 和 鱼 和 能 掌 兼 得 ， 只 是 重点 不 同 。 

现实 世界 的 很 多 系统 都 使 用 了 这 种 嵌入 方法 。 例 如， 很 多 计算 机 游戏 ( 它们 几乎 都 是 使 用 
编译 型 语言 编写 的 ， 其 代码 库 几 乎 都 是 为 最 大 限度 提高 速度 而 开发 的 ) 都 使 用 诸如 Python 等 动 
态 语言 来 描述 高 级 行为 (如 游戏 中 角色 的 “智力 ”) ， 而 主 代码 引 营 负责 图 形 等 方面 。 

正文 提 到 的 CPython、jJython 和 IronPython 文 档 也 讨论 了 广 入 方法 ， 以 帮助 你 采用 这 种 
如 果 你 要 使 用 速度 很 快 的 高 级 语言 Julia( http://julialang.org ) ， 同 时 访问 既 有 的 Python 库 ， 
可 使 用 PyCall.jl 库 (https://github.com/stevengj/PyCall.jl ) 。 


17.2 简单 易 行 的 方式 : Jython 和 IronPython 


如 果 使 用 Jython ( http://jython.org ) 或 onPython ( http://ironpython.net )， 可 轻松 地 使 用 原生 
模块 来 扩展 Python, 因为 Jython 和 IronPython 能 够 让 你 访问 底层 语言 中 的 模块 和 类 ( 对 Jython 来 说 ， 
底层 语言 为 Java; 对 IronPython 来 说 ， 为 C# 和 其 他 .NET 语 言 )， 从 而 无 需 像 扩展 CPython 那 样 遵循 
特定 的 API。 你 只 需 实 现 所 需 的 功能 , 就 可 在 Python 中 使 用 它们 , 就 像 变 魔术 一 样 。 例如, 在 Jython 
中 ， 可 直接 访问 Java 标 准 库 ; 而 在 IronPython 中 ， 可 直接 访问 C# 标 准 库 。 

代码 清单 17-1 展 示 了 一 个 简单 的 Java 类 。 


代码 清单 17-1 一 个 简单 的 Java 类 (JythonTest.java ) 
public class JythonTest { 
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public void greeting() { 
System.out.println("Hello, world!"); 
} 
} 


可 使 用 Java 编 译 髓 ( 如 javac ) 来 编译 这 个 类 。 


$ javac JythonTest.java 






































提示 如果 你 使 用 Java 进 行 开发 , 也 可 使 用 命令 jythonc 将 Python 类 编译 成 Java 类 ,然后 就 可 将 其 





导入 到 Java 程 序 中 。 
编译 这 个 类 后 ， 启 动 Jython ( 并 将 .class 文 件 放 到 当前 目录 或 Java CLASSPATH 包 含 的 目录 中 )。 

















$ CLASSPATH=JythonTest.class jython 


然后 ， 就 可 直接 导入 这 个 类 了 。 


>>> import JythonTest 
>>> test = JythonTest() 
>>> test.greeting() 
Hello, world! 


看 到 了 吗 ? 一 点 都 不 难 。 





Jython 属 性 魔法 


在 与 Java 类 交互 方面 ，Jython 有 几 把 刷子 。 其 中 最 有 用 的 功能 是 ， 让 你 和 1 通 属 
性 一 样 访问 JavaBean 属 性 。 在 Java 中 ， 你 使 用 存 取 方法 来 读 取 或 修改 这 些 属性 ， 这 意味 着 如 
果 Java 实 例 foo 包 含 方 法 setBar， 就 可 使 用 foo.bar = baz， 而 不 是 foo.setBar(baz)。 同 样 ， 如 
果 这 个 实例 包含 方法 getBar 或 jsBar( 针对 布尔 属性 )， 就 可 使 用 foo.bar 来 访问 相应 属性 的 值 。 
下 面 来 看 Jython 文 档 中 的 一 个 示例 。 不 用 像 下 面 这 样 做 : 

b = awt.Button() 

b.setEnabled(False) 
而 可 这 样 做 : 

b = awt.Button() 

b.enabled = False 


实际 上 ， 所 有 属性 也 都 可 在 构造 函数 中 通过 关键 字 参 数 米 设置 。 因 此 可 像 下 面 这 样 做 : 
b = awt.Button(enabled=False) 
这 适用 于 表示 多 个 参数 的 元 组 ， 也 适用 于 Java 成 例 ( 如 事件 监听 器 ) 的 函数 参数 。 


def exit(event): 
java.1lang.System.exit(0) 
b = awt.Button("Close Me!l", actionperformed=exit) 


在 Java 中 ， 必 须 实现 一 个 包含 方法 actionPerformed 的 类 ， 再 使 用 b.addActionListener 来 
添加 这 个 类 的 实例 。 
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代码 清单 17-2 是 一 个 类 似 的 C# 类 。 


代码 清单 17-2 一 个 简单 的 C# 类 (IronPythonTest.cs ) 


using System; 
namespace FePyTest { 
public class IronPythonTest { 


public void greeting() { 
Console.WritelLine("Hello, world!"); 


} 
} 


使 用 你 选择 的 编译 器 来 编译 这 个 类 。 对 于 Microsoft .NET， 命令 如 下 : 

csc.exe /t:library IronPythonTest.cs 

要 在 IronPython 中 使 用 这 个 类 ， 一 种 方法 是 将 其 编译 为 动态 链接 库 ( DLL; 有 关 这 方面 的 细 
节 请 参阅 C# 文 档 ) 并 根据 需要 修改 相关 的 环境 变量 ( 如 PATH ), 然后 就 应 该 能 够 像 下 面 这 样 使 用 
它 了 (这 里 使 用 的 是 IronPython 交 互 式 解释 器 ): 


>>> import clr 
>>> clr.AddReferenceToFile("IronPythonTest.d11") 
>>> import FePyTest 

>>> f = FePyTest.ITonPythonTest() 

>>> f.greeting() 


有 关 这 些 Python 实 现 的 详细 信息 ， 请 参阅 Jython 网 站 http://jython.org ) 和 IronPython 网 站 
( http://ironpython.net )。 


17.3 ”编写 C 语言 扩展 


这 是 真正 的 重点 所 在 。 扩展 Python 通 常 意味 着 扩展 CPython 一 一 使 用 编程 语言 C 实 现 的 Python 
标准 版 。 












































提示 ”有关 C 语 言 的 基本 介绍 和 背景 材料 ， 请 参阅 维基 百科 上 的 C 语 言词 条 (http:/en.wikipedia. 
org/wiki/C_programming language )。 要 更 深入 地 了 解 C 语 言 , 请 参阅 Ivor Horton 的 著作 《C 
语言 入 门 经 典 〈 第 5 版 ))。 有 关 C 语 言 的 权威 著作 是 《C 程 序 设计 语言 (第 2 版 )》 这 是 永 
恒 的 经 典 ， 出 自 C 语 言 之 父 布 莱恩 ' 柯 尼 汉 和 丹尼斯 ， 里 奇 之 手 。 


C 语 言 的 动态 性 不 如 Java 和 C#， 而 且 对 Python 来 说 ， 编 译 后 的 C 语 言 代 码 也 不 那么 容易 理解 。 
因此 ， 使 用 C 语 言 编 写 Python 扩 展 时 ， 必 须 遵 循 严格 的 API。 这 个 API 将 在 17.3.2 节 讨论 。 有 几 个 
项 目 力 图 简化 C 语 言 扩 展 的 编写 过 程 ， 其 中 比较 有 名 的 一 个 是 SWIG， 将 在 17.3.1 节 讨论 (有 关 其 
他 方法 ， 请 参阅 旁 注 “ 其 他 方法 ”)。 
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如 果 你 使 用 Cpython， 有 很 多 工具 可 帮助 提高 程序 的 速度 ， 这 是 通过 生成 和 使 用 C 语 言 库 
或 提高 Python 代码 的 速度 实现 的 。 下 面 概述 其 中 的 几 个 。 

口 J ( http://cython.org ) : 这 其 实 是 一 个 Python 编译 器 ! 它 还 提供 了 扩展 的 Cython 语 
言 ， 该 语言 基于 Greg Ewing 开 发 的 项 目 Pyrex， 能 够 使 用 类 似 于 Python 的 语法 添加 
2 明和 定义 C 类 型 。 因 此 ， 它 的 效率 非常 高 ， 并 且 能 够 很 好 地 与 C 扩 展 模块 (包括 
Numpy ) 交互 。 

口 PyPy ( http://pypy.org ) : 这 是 一 个 雄心 2 勃 而 有 远见 的 Python 实现 一 一 使 用 的 是 
Python。 这 种 实现 好 像 会 慢 曼 如 蜗牛 ， 但 通过 极其 复杂 的 代码 分 析 和 编译 ， 其 性 能 实际 
上 超过 了 CPython。 其 官网 指出 : “有 传言 说 PyPy 的 秘密 目标 是 在 速度 上 超过 C 语 言 ， 
这 是 无 稿 之 谈 ， 不 是 吗 ? ”PyPy 的 核心 是 RPython 一 一 一 种 受 限 的 Python 方言 。RPython 
擅长 自动 类 型 推断 等 ， 可 转换 为 静态 语言 、 机 器 码 和 其 他 动态 语言 ( 如 JavaScript ) 。 

口 oa ( http://scipy.org ) : SciPy 发 布 版 的 一 部 分 ， 也 有 单独 的 安装 包 。 这 个 工具 让 你 

能 够 在 Python 代码 中 以 字符 串 的 方式 直接 包含 C 或 CH 代码， 并 无 颖 地 编译 和 执行 这 些 
Ra 例如 ， 要 快速 计算 一 些 数学 表达 式 ， 就 可 使 用 这 个 工具 。Weave 还 可 提高 使 用 
数字 数组 的 表达 式 的 计算 速度 (参阅 下 一 条 ) 。 

口 NumPy (http:/numpy.org ) : NumPy 让 你 能 够 使 用 数字 数组 ， 这 对 分 析 各 种 形式 的 数值 
数据 (从 股票 价值 到 天 文 图 像 ) 很 有 帮助 。NumPy 的 优点 之 一 是 接口 简单 ， 让 你 无 需 
人 NumPy 的 主要 优点 是 速度 快 。 对 数字 数组 中 的 每 个 
元 素 执行 很 多 常见 操作 时 ， 速 度 都 比 使 用 列表 和 for 循 环 执行 同样 的 操作 快 得 多 ， 这 是 
因为 隐 式 循环 是 直接 使 用 C 语 言 实现 的 。 数 字数 组 能 够 很 好 地 与 Cython 和 Weave 协 同 工 作 。 

口 ctypes (https://docs.python.org/library/ctypes.html ) : 模块 ctypes 最 初 是 Thomas Heller 开 
发 的 一 个 项 目 ， 但 现在 包含 在 标准 库 中 。 它 采用 直截了当 的 方法 让 你 能 够 导入 既 
can 共享 ) 的 C 语 言 库 。 虽 然 存 在 一 些 限制 ， 但 这 可 能 是 访问 C 语 言 代码 的 最 简单 方式 

。 不 需要 包装 器 ， 也 不 需要 特殊 API， 只 需 将 库 导 入 就 可 使 用 。 
口 es ( https://docs.python.org/3/library/subprocess.html ) : 这 个 工具 有 点 与 众 不 
同 。 模 块 Subprocess 包 含 在 标准 库 中 【标准 库 中 还 有 一 些 较 老 的 模块 和 函数 提供 了 类 似 
的 功能 ) 。 它 让 你 能 够 在 Python 中 运行 外 部 程序 ， 并 通过 命令 行 参数 以 及 标准 输入 、 输 
出 和 错误 流 与 它们 通信 。 如 果 对 速度 要 求 极 高 的 代码 可 使 用 几 个 批 处 理 作 业 来 完成 大 
部 分 工作 ， 启 动 外 部 程序 并 与 之 通信 所 需 的 时 间 将 很 短 。 在 这 种 情况 下 ， 将 C 语 言 代 
码 放 在 独立 的 程序 中 并 将 其 作为 子 进程 运行 很 可 能 是 最 整洁 的 解决 方案 。 
口 PyCXX (http://cxx.sourceforge.net ) : 以 前 名 为 CXX 或 CXX/Objects， 是 一 组 帮助 使 用 
C++ 编写 Python 扩展 的 工具 。 例 如 ， 它 提供 了 良好 的 引用 计数 支持 ， 可 减少 犯错 的 机 会 。 
口 SIP( http://www.riverbankcomputing.co.uk/software/sip ): SIP 最 初 是 一 个 开发 GUI 包 PyQt 
的 工具 ， 和 包含 一 个 代码 生成 器 和 一 个 Python 模 块 。 它 像 SWIG 那 样 使 用 规范 文件 。 
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口 Boost.Python (http:/www.boost.org/libs/python/doc ) : Boost.Python 让 Python 和 C++ 能 多 
无 终 地 互 操作 ， 可 为 你 解决 引用 计数 和 在 C++ 中 操作 Python 对 象 提 供 极 大 的 帮助 。 一 
种 使 用 它 的 主要 方式 是 ， 以 类 似 于 Python 的 方式 编写 C++ 代码 (Boost.Python 中 的 宏 为 此 
提供 了 支持 ) ， 再 使 用 你 喜欢 的 C++ 编译 器 将 这 些 代 码 编 译 成 Python 扩展 。 它 虽然 与 
SWIG 有 天 壤 之 别 ， 却 能 很 好 地 替代 SWIG， 因 此 很 值得 你 研究 研究 。 





17.3.1 SWIG 


SWIG ( http://www.swig.org ) 指 的 是 简单 包装 器 和 接口 生成 器 (simple wrapper and interface 
generator )， 是 一 个 适用 于 多 种 语言 的 工具 。 一 方面 ， 它 让 你 能 够 使 用 C 或 C++ 编写 扩展 代码 ; 另 
一 方面 ， 它 自动 包装 这 些 代 码 ， 让 你 能 够 在 Tcl、Python 、Perl 、Ruby 和 Java 等 高 级 语言 中 使 用 它 
们 。 这 意味 着 如 果 你 决定 以 C 语 言 扩展 的 方式 实现 系统 的 某 个 部 分 ， 而 不 是 直接 使 用 Python 实现 
它 ， 也 可 使 用 SWIG 让 这 个 C 语 言 扩展 库 可 供 众 多 其 他 语言 使 用 。 这 在 你 需要 以 不 同 的 语言 
多 个 协同 工作 的 子 系统 时 很 有 用 ; 在 这 种 情况 下 ，C 语 言 (或 Ct+ ) 扩展 将 成 为 协作 的 枢纽 。 

SWIG 的 安装 步 又 与 其 他 Python 工具 相同 。 

口 可 从 官网 http:/www.swig.org 下 载 SWIG。 

口 很 多 UNIX/Linux 发 布 版 都 包含 SWIG; 很 多 包 管 理 器 都 能 够 让 你 直接 安装 它 。 
口 有 用 于 Windows 的 二 进 制 安装 程序 。 

D 自己 编译 源 代 码 也 很 简单 ， 只 需 调 用 configure 和 make install 即 可 。 

如 果 你 在 安装 SWIG 时 遇 到 麻烦 ， 应 该 能 够 在 官网 找到 帮助 信息 。 

1. 用 法 

SWIG 使 用 起 来 很 简单 ， 前 提 条 件 是 有 一 些 C 语 言 代码 。 

(1) 为 代码 编写 一 个 接口 文件 。 这 很 像 C 语 言 涉 文件 (在 比较 简单 的 情况 下 ,可 直接 使 用 现 有 
的 头 文件 )。 

(2) 对 接口 文件 运行 SWIG， 以 自动 生成 一 些 额 外 的 C 语 言 代 码 (包装 器 代码 )。 

(3) 将 原来 的 C 语 言 代码 和 生成 的 包装 器 代码 一 起 编译 ， 以 生成 共享 库 。 

接 下 来 将 讨论 每 个 步 又， 首先 来 编写 一 些 C 语 言 代码 。 

2. 回 文 

回 文 (palindrome; 如 I prefer pi ) 是 忽略 空格 、 标 点 等 后 正 着 读 和 反 着 读 一 样 的 句子 。 假 设 
你 要 检测 不 包含 空格 、 标 点 等 的 极 长 回 文 ( 可 能 是 为 了 分 析 和 蛋白 质 序列 之 类 的 东西 )。 当 然 ， 要 
分 析 的 字符 串 必须 非常 长 , 达到 纯 Python 程 序 无 法 分 析 的 程度 ; 但 这 里 假设 要 分 析 的 字符 串 极 长 ， 
而 且 需 要 做 大 量 这 样 的 检查 。 因 此 你 决定 编写 一 段 C 语 言 代 码 来 处 理 ( 你 也 可 能 找到 了 现成 的 代 
码 一 一 前 面 说 过 , SWIG 的 主要 用 途 是 让 你 能 够 在 Python 中 使 用 既 有 的 C 语 言 代码 ), 代码 清单 17-3 
是 一 种 可 能 的 实现 。 
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代码 清单 17-3 一 个 简单 的 检测 回 文 的 C 语 言 函 数 (palindrome.c ) 
#include <string.h> 
int is palindrome(char *text) { 
int i, n=strlen(text); 


for (i = 0; I <= Nn/2; ++i) { 
if (text[i] != text[n-i-1]) return 0; 


return 1; 


} 
为 了 方便 比较 ， 代 码 清单 17-4 列 出 了 与 之 等 价 的 纯 Python 函 数 。 


代码 清单 17-4 检测 回 文 的 Python 函数 


def is palindrome(text): 
n = len(text) 
for i in range(len(text) // 2): 
if text[i] != text[n-i-1]: 
return False 
return True 


稍 后 将 演示 如 何 编译 和 使 用 这 些 C 语 言 代码 。 

3. 接口 文件 

假设 你 将 代码 清单 17-3 所 示 的 代码 存储 在 文件 palindrome.c 中 ， 现 在 应 该 在 文件 palindrome.i 
中 添加 接口 描述 。 在 很 多 情况 下 ， 如 果 定 义 一 个 头 文件 〈 这 里 为 palindrome.h )，SWIG 可 能 能 够 
从 中 获取 所 需 的 信息 。 因 此 , 如 果 有 头 文 件 , 可 尝试 使 用 它 。 显 式 地 编写 接口 文件 的 原因 之 一 是 ， 
这 样 可 微调 SWIG 包 装 代 码 的 方式 ， 其 中 最 重要 的 微调 是 将 某 些 东西 排除 在 外 。 例 如 ， 包 装 巨 大 
的 C 语 言 库 时 ， 你 可 能 只 想 将 几 个 函数 导出 到 Python。 在 这 种 情况 下 ， 可 只 将 要 导出 的 函数 放 在 
接口 文件 中 。 

在 接口 文件 中 ， 你 只 是 声明 要 导出 的 函数 ( 和 变量 )， 就 像 在 头 文件 中 一 样 。 另 外 ， 在 接口 
文件 的 开头 ， 有 一 个 由 %{ 和 %} 界 定 的 部 分 ， 可 在 其 中 指定 要 包含 的 头 文件 ( 这 里 为 string.h )。 在 
这 个 部 分 的 前 面 ， 还 有 一 个 %module 声 明 ， 用 于 指定 模块 名 。( 这 里 介绍 的 有 些 选 项 是 可 选 的 。 另 
外 , 使 用 接口 文件 可 做 的 事情 很 多 ; 有 关 这 些 方 面 的 详细 信息 , 请 参阅 SWIG 文 档 。) 代 码 清单 17-5 
是 这 里 需要 编写 的 接口 文件 。 


代码 清单 17-5” 回 文 检测 库 的 接口 ( palindrome.i ) 


%module palindrome 

























































































%{ 
#include <string.h> 
的 


extern int is palindrome(char *text); 


4. 运行 SWIG 
运行 SWIG 可 能 是 整个 过 程 中 最 容易 的 部 分 。 虽 然 有 很 多 命令 行 开 关 ( 要 获悉 完整 的 开关 列 
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表 ， 可 执行 命令 swig -help )， 但 只 需 使 用 开关 -python 就 可 让 SWIG 对 C 语 言 代 码 进行 包装 ， 以 便 
能 够 在 Python 中 使 用 。 另 一 个 可 能 很 有 用 的 开关 是 -c++， 可 用 于 包装 C++ 库 。 运 行 SWIG 时 ， 需 要 
将 接口 文件 (也 可 以 是 头 文件 ) 作为 参数 ， 如 下 所 示 : 

$ swig -python palindrome.i 

这 将 生成 两 个 新 文件 ， 分 别 是 palindrome_wrap.c 和 palindrome.py。 

5. 编译 、 链 接 和 使 用 
编译 可 能 是 最 环 手 的 部 分 ( 至 少 在 我 看 来 如 此 )。 要 正确 地 编译 , 需要 知道 Python 源 代码 ( 至 
少 是 头 文 件 pyconfig.h 和 Python.h ) 的 存储 位 置 (它们 可 能 分 别 位 于 Python 安装 目录 和 子 目 录 
Include 中 )。 你 还 需 根 据 选择 的 C 语 言 编译 器 , 使 用 正确 的 开关 将 代码 编译 成 共享 库 。 如 果 你 不 知 
道 该 使 用 哪些 参数 和 开关 ， 可 参阅 稍 后 的 一 节 。 

下 面 是 一 个 在 Solaris 系 统 中 使 用 编译 器 cc 的 示例 (这 里 假设 $PYTHON_HOME 指 向 Python 安 
装 目录 ): 


$ cc -c palindrome.c 
$ cc -I$PYTHON HOME -I$PYTHON HOME/Include -c palindrome wrap.c 
$ cc -G palindrome.o palindrome wrap.o -0 palindrome.so 


下 面 是 在 Linux 中 使 用 编译 器 gcc 的 示例 : 
$ gcc -Cc palindrome.c 
$ gcc -I$PYTHON HOME -I$PYTHON HOME/Include -c palindrome wrap.c 
$ gcc -shared palindrome.o palindrome wrap.o -o palindrome.so 
可 能 所 有 必要 的 包含 文件 都 在 一 个 地 方 , 如 /usrinclude/python3.5 ( 版 本 号 随 具体 情况 而 异 )。 
在 这 种 情况 下 ， 像 下 面 这 样 做 就 行 : 
$ gcc -Cc palindrome.c 


$ gcc -I/usr/include/python3.5 -c palindrome wrap.c 
$ gcc -shared palindrome.o palindrome wrap.o -0 palindrome.so 


在 Windows 中 (这 里 也 假设 从 命令 行 运行 编译 器 gcc )， 可 使 用 如 下 命令 来 创建 共享 库 : 
$ gcc -shared palindrome.o palindrome wrap.o C:/Python25/1libs/libpython25.a -o_ palindrome.dll 


在 macOS 中 ， 可 像 下 面 这 样 做 (如果 你 使 用 的 是 Python 官方 安装 ，PYTHON_HOME 将 为 


/Library/Frameworks/Python.framework/Versions/Current ): 


























































































































$ gcc -dynamic -I$PYTHON HOME/include/python3.5 -c palindrome.c 

$ gcc -dynamic -I$PYTHON HOME/include/python3.5 -c palindrome wrap.c 

$ gcc -dynamiclib palindrome wrap.o palindrome.o -o palindrome.so -Wl, -undefined, dynamic_ 
lookup 


注意 ”在 Solaris 系 统 中 使 用 编译 器 gcc 时 ,请 在 开头 两 个 命令 中 添加 标志 -fPIC( 紧 跟 在 gcc 后 面 )。 
否则 ， 当 你 使 用 最 后 一 个 命令 链接 文件 时 ， 编 译 器 将 感到 迷惑 。 另 外 ， 如 果 你 使 用 了 包 
管理 器 ( 这 在 Linux 平 台中 很 常见 ), 可 能 需要 安装 一 个 独立 的 包 ( 名 称 类 似 于 python-dev )， 
以 获得 编译 扩展 所 需 的 头 文件 。 
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念 完 这 些 “ 黑 暗 魔 品 ”后 ,将 得 到 一 个 很 有 用 的 文件 _palindrome.so。 它 就 是 共享 库 ， 可 直 
接 导 入 到 Python 中 (条 件 是 它 位 于 PYTHONPATH 包 含 的 目录 中 ， 如 当前 目录 中 ): 


>>> import _palindrome 

>>> dir(_palindrome) 

['_doc ',' file "， name ', 'is palindrome'] 
>>> palindrome.is palindrome('ipreferpi') 

1 
>>> palindrome.is palindrome('notlob') 
0 


如 果 你 使 用 的 是 较 旧 的 SWIG 版 本 , 这 就 是 全 部 内 容 。 然 而, 较 新 的 SWIG 版 本 还 会 生成 一 些 
Python 包 装 代码 ( 文件 palindrome.py )， 它 导入 模块 _palindrome 并 执行 一 些 检查 工作 。 如 果 你 不 
想 使 用 文件 palindrome.py， 只 需 将 其 删除 并 将 库 链 接 为 palindrome.so 即 可 。 

使 用 包装 代码 的 效果 与 使 用 共享 库 相 同 。 


>>> import palindrome 
>>> from palindrome import is palindrome 
>>> if is palindrome('abba'): 
print('Wow -- that never occurred to me ...') 















































Wow -- that never occurred to me ... 

6. 穿越 编译 器 “魔法 森林 ”的 捷径 

如 果 你 觉得 编译 过 程 史 涩 难 风 ， 也 很 正常 ， 很 多 人 都 这 样 认 为 。 如 果 自 动 化 编译 过 程 [ 如 使 
用 生成 文件 (makefile ) ]， 就 需要 进行 配置 : 指定 Python 安装 位 置 、 要 使 用 的 编译 器 和 选项 等 。 
通过 使 用 Setuptools 可 优雅 地 避免 这 样 做 。 实 际 上 ， 它 直接 支持 SWIG ， 让 你 无 需 手工 运行 SWIG : 
只 需 编 写 代 码 和 接口 文件 ， 再 运行 安装 脚本 。 有 关 这 方面 的 详细 信息 ， 请 参阅 18.3 节 。 


17.3.2 ”手工 编写 扩展 


SWIG 在 幕后 做 了 很 多 工作 ， 但 并 非 每 项 工作 都 是 绝对 必要 的 。 如 果 你 愿意 ， 可 自己 编写 包 
装 代码 ， 也 可 在 C 语 言 代码 中 直接 使 用 Python C API。 

Python CAPI 有 专门 的 参考 手册 , 即 “Python/C API 人 参考 手册 ”( https://docs.python.org/3/c-api )。 
标准 库 参 考 手册 的 相关 部 分 (https:/docs.python.org/3/extending ) 也 对 这 个 API 做 了 简要 的 介绍 。 
这 里 的 介绍 将 更 简短 。 如 果 你 对 这 里 未 涉及 的 内 容 (有 很 多 ) 感 兴趣 ， 请 参阅 官方 文档 。 

1. 引用 计数 

如 果 你 以 前 未 使 用 过 引用 计数 ， 它 可 能 是 本 节 最 难 懂 的 概念 ， 不 过 这 个 概念 并 不 那么 复杂 。 
在 Python 中 ， 内 存 管理 是 自动 完成 的 : 你 只 管 创建 对 象 ， 当 你 不 再 使 用 时 它们 就 会 消失 。 在 C 语 
言 中 ,情况 并 非 如 此 。 你 必须 显 式 地 释放 不 再 使 用 的 对 象 ( 更 准确 地 说 是 内 存 块 )， 否 则 程序 占 
用 的 内 存 将 越 来 越 多 ， 这 称 为 内 存 泄漏 ( memory leak )。 
编写 Python 扩展 时 ， 可 使 用 Python 在 幕后 使 用 的 内 存 管理 工具 ， 其 中 之 一 就 是 引用 计数 。 其 
基本 理念 是 , 一 个 对 象 只 要 被 代码 引用 (在 C 语 言 中 是 有 指向 它 的 指针 ), 就 不 应 将 其 释放 。 然而， 
指向 对 象 的 引用 数 为 0 后 ， 引 用 数 就 不 可 能 再 增 大 一 一 没 办 法 创建 指向 相应 对 象 的 新 引用 。 因 此 
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对 象 在 内 存 中 是 自由 浮动 的 。 此 时 ， 可 安全 地 释放 它 。 引 用 计数 自动 完成 这 个 过 程 。 为 此 ， 你 需 
要 遵守 一 系列 规则 ， 这 些 规则 指定 了 在 各 种 情况 下 应 (使 用 Python API ) 将 对 象 的 引用 计数 加 1 
或 减 1; 而 引用 计数 变 成 0 后 ， 对 象 将 被 自动 释放 。 这 意味 着 没有 专门 负责 管理 对 象 的 代码 。 在 函 
数 中 创建 并 返回 对 象 后 ， 就 可 将 它 抛 在 脑 后 ， 因 为 你 知道 ， 不 再 需要 时 它 就 会 消失 。 

为 将 对 象 的 引用 计数 加 1 和 减 1， 可 使 用 两 个 宏 , 分 别 是 Py_INCREF 和 Py_DECREF。 有 关 这 两 个 
宏 的 详细 用 法 ， 请 参阅 Python 文 档 ， 这 里 列 出 了 其 中 的 一 些 要 点 。 
口 对 象 不 归 你 所 有 ， 但 指向 它 的 引用 归 你 所 有 。 一 个 对 象 的 引用 计数 是 指向 它 的 引用 的 
数量 。 
口 对 于 归 你 所 有 的 引用 ， 你 必须 负责 在 不 再 需要 它 时 调用 Py_DECREF。 
口 对 于 你 暂时 借用 的 引用 ， 不 应 在 借用 完 后 调用 Py_DECREF， 因 为 这 是 引用 所 有 者 的 职责 。 







































































警告 ”对 于 借 来 的 引用 ， 你 绝 不 能 在 所 有 者 将 其 释放 后 再 使 用 。 有 关 确 保安 全 的 更 多 建议 ， 请 
参阅 文档 的 Thin ice 部 分 。 











口 可 通过 调用 Py_INCREF 将 借 来 的 引用 变 成 自己 的 。 这 将 创建 一 个 新 引用 ， 而 借 来 的 引用 依 
然 归 原 来 的 所 有 者 所 有 。 
口 通过 参数 收 到 对 象 后 ， 要 转移 所 有 权 ( 如 将 其 存储 起 来 ) 还 是 仅仅 借用 完全 由 你 决定 ， 
但 应 清楚 地 说 明 。 如 果 函 数 将 在 Python 中 调用 , 完全 可 以 只 借用 , 因为 对 象 在 整个 函数 调 
用 期 间 都 存在 。 然 而 ,如果 函数 将 在 C 语 言 中 调用 ， 就 无 法 保证 对 象 在 函数 调用 期 间 都 存 
在 ， 因 此 可 能 应 该 创建 自己 的 引用 ， 并 在 使 用 完毕 后 将 其 释放 。 
稍 后 将 介绍 一 个 具体 的 示例 ， 届 时 你 将 对 这 些 要 点 有 更 清晰 的 认识 。 


再 谈 垃圾 收集 


引用 计数 是 一 种 垃圾 收集 方式 ， 其 中 的 术语 “垃圾 ” 指 的 是 程序 不 再 使 用 的 对 象 。 
Python 还 使 用 一 种 更 尖端 的 算法 来 检测 循环 垃圾 ， 即 两 个 对 象 相互 引用 对 方 ( 导致 它们 的 引用 
计数 不 为 0 ) ， 但 没有 其 他 的 对 象 引 用 它们 。 

在 Python 程序 中 ， 可 通过 模块 gc 来 访问 Python 垃圾 收集 器 。 有 关 这 个 模块 的 详细 信息 ， 
请 参阅 “Python 库 参 考 手 册 ”( https://docs.python.org/3/library/gc.html ) 。 




















































































































2. 扩展 框架 

编写 Python 的 C 语 言 扩展 时 , 需要 大 量 的 模板 代码 , 因此 SWIG 和 Cython 等 工具 可 提供 极 大 的 
帮助 。 尽管 应 自动 生成 模板 代码 , 但 手工 编写 是 种 不 错 的 学 习 体验 。 在 如 何 组 织 代码 方面 有 很 大 
的 选择 空间 ， 但 这 里 只 介绍 一 种 管用 的 方式 。 

首先 要 补 记 的 是 ， 必 须 先 包含 头 文件 Pythonh， 再 包含 其 他 标准 头 文件 。 这 是 因为 在 有 些 平 
台 上 ，Python.h 可 能 会 做 些 重 新 定义 ， 而 其 他 头 文件 需要 用 到 这 些 新 定义 。 因 此 ， 请 将 下 面 的 内 
容 作 为 第 一 行 代码 : 
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#include <Python.h> 
你 想 给 函数 指定 什么 样 的 名 称 都 可 以 ,但 它 必须 是 静态 的 ， 返回 一 个 指向 Py0bject 对 象 的 指 
针 ( 归 你 所 有 的 引用 ) 并 接受 两 个 参数 (它们 也 都 是 指向 Py0bject 的 指针 )。 根 据 约定 ， 将 这 两 
个 参数 分 别 命 名 为 self 和 args ( 其 中 self 为 当前 对 象 或 NULL， 而 args 是 由 参数 组 成 的 元 组 )。 换 而 
言 之 ， 函 数 应 类 似 于 下 面 这 样 : 


static PyObject *somename(PyObject *self, PyObject *args) { 
PyObject *result; 
/* 在 这 里 执行 操作 ， 和 包括 分 配 result*/ 























Py_INCREF(result); /* 仅 当 需要 时 才 这 样 做 1 */ 
return result; 


} 

参数 self 仅 用 于 关联 的 方法 中 。 在 其 他 函数 中 ， 这 个 参数 为 NULL 指 针 。 

请 注意 , 可 能 不 需要 调用 Py_INCREF。 如 果 对 象 是 在 函数 中 创建 的 (如 通过 使 用 Py_BuildValue 
等 辅助 函数 )， 函 数 便 用 于 指向 它 的 引用 ， 因 此 只 需 返 回 它 即 可 。 然而， 如 果 要 从 函数 返回 None， 
应 使 用 既 有 的 对 象 py_None。 在 这 种 情况 下 ， 函 数 并 不 拥有 指向 Py_None 的 引用 ， 因 此 必须 在 返回 
它 之 前 调用 Py_INCREF(Py_None)。 

参数 args 包 含 传递 给 函数 的 所 有 参数 ( 参数 self 除 外 )。 为 提取 这 些 参 数 ， 可 使 用 
PyArg_ParseTuple (适用 于 位 置 参数 ) 和 PyArg ParseTupleAndKeywords( 适用 于 位 置 参数 和 关键 
字 参 数 )。 这 里 只 使 用 位 置 参数 。 

函数 PyArg_ParseTuple 的 特征 标 如 下 : 

int PyArg ParseTuple(PyObject *args, char *format, ...); 


其 中 格式 字符 串 描 述 了 期 望 的 参数 , 它 后 面 是 要 将 参数 存储 到 其 中 的 变量 的 地 址 。 返回 值 是 
一 个 布尔 值 ， 如 果 为 True 意味 着 一 切 顺 利 ， 和 否则 意味 着 发 生 了 错误 。 发 生 错误 时 引发 异常 的 准备 
工作 已 就 绪 〈 详细 信息 请 参阅 文档 )， 你 只 需 返 回 NULL 来 触发 这 个 过 程 。 因 此 ， 如 果 你 预期 没有 
任何 参数 ( 格式 字符 串 为 空 )， 下 面 是 一 种 很 有 用 的 参数 处 理 方式 : 


if (!PyArg ParseTuple(args, "")) { 
return NULL; 
} 


执行 这 条 语句 后 , 便 提取 了 参数 ( 这 里 是 没有 任何 参数 ), 在 格式 字符 串 中 ,"s" 表 示 字 符 串 ， 
"i" 表 示 整 数 ,"o" 表 示 Python 对 象 ， 因此 "iis" 表 示 两 个 整数 和 一 个 字符 串 。 还 有 很 多 其 他 的 格式 
字符 串 编码 。 有 关 如 何 编写 格式 字符 串 的 完整 参考 ， 请 参阅 “Python/C API 参考 手册 ” 
( https://docs.python.org/3/c-api/arg.html )。 

















































































































注意 在 扩展 模块 中 ， 也 可 创建 内 置 类 型 和 类 。 这 不 是 很 难 ， 但 也 相当 复杂 。 如 果 你 的 主要 目 
标 是 使 用 C 语 言 编写 翔 颈 部 分 , 在 大 部 分 情况 下 使 用 函数 就 足够 了 。 要 了 解 如 何 创建 类 型 
和 类 ，Python 文 档 是 不 错 的 参考 资料 。 
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函数 创建 好 后 ， 还 需 做 些 包 装 工 作 ， 让 C 语 言 代 码 充当 模块 。 等 我 们 遇 到 实际 示例 时 再 
讨论 吧 。 
3. 回 文 




















言 归 正 传 , 代码 清单 17-6 是 手工 编写 的 模块 palindrome 的 Python C API 版 , 其 中 包含 一 些 有 趣 
的 新 内 容 。 


代码 清单 17-6“ 另 一 个 回 文 检查 示例 (palindrome2.c ) 
#include “Python.h> 





static PyObject *is palindrome(PyObject *self, PyObject *args) { 
int i, nj 
const char *text; 
int result; 
/*"s" 表 示 一 个 字符 囊 : */ 
if (!PyArg ParseTuple(args, "s", &text)) { 
return NULL; 
} 


/与 旧版 的 代码 大 致 相同 : */ 
n=strlen(text); 
result = 1; 
for (i = 0; i <= Nn/2; ++i) { 
if (text[i] != text[n-i-1]) { 
result = 0; 
break; 





} 
} 
/* "i" 表 示 一 个 整数 : */ 
return Py BuildValue("i", result); 


} 


/* 方法 /函数 列表 : */ 
static PyMethodDef PalindromeMethods[] = { 


/# 名 称 、 函 数 、 参 数 类 型 、 文 档 字符 事 */ 
{ "is palindrome", is palindrome, METH VARARGS, "Detect palindromes"}, 
/* 列表 结束 标志 : */ 

{NULL, NULL, 0, NULL} 


}; 


static struct PyModuleDef palindrome = 
{ 
PyModuleDef HEAD INIT, 
"palindrome"，/* 模块 名 */ 
"", /* 文档 字符 囊 */ 
-1， /* 存 储 在 全 局 变量 中 的 信号 状态 */ 
PalindromeMethods 
}; 


/* 初始 化 模块 的 函数 : */ 
PyMODINIT_FUNC PyInit palindrome(void) 
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{ 


} 

在 代码 清单 17-6 中 ， 新 增 的 大 部 分 内 容 都 是 模板 代码 。 可 将 palindrome 替 换 为 模块 名 ， 将 
is_palindrome 蔡 换 为 函数 名 。 如 果 还 有 其 他 函数 ， 只 需 在 数组 PyMethodDef 中 将 它们 列 出 。 然 
而 ， 需 要 注意 的 一 点 是 ， 初 始 化 函数 必须 为 initmodule， 其 中 module 为 模块 名 ; 否则 Python 就 
找 不 到 它 。 

现在 来 编译 吧 ! 为 此 ， 可 以 像 17.3.1 节 中 那样 做 , 但 需要 处 理 的 文件 只 有 一 个 。 下 面 演示 了 
如 何 使 用 gcc 进 行 编译 ( 在 Solaris 系 统 中 ， 别 忘 了 添加 开关 -fPIC ): 


$ gcc -I$PYTHON HOME -I$PYTHON HOME/Include -shared palindrome2.c -0 palindrome.so 


通常 ， 这 将 生成 一 个 名 为 palindrome.so 的 文件 。 只 要 将 它 放 在 PYTHONPATH 包 含 的 目录 ( 如 当 
前 目录 ) 中 ， 就 可 开始 使 用 了 : 


>>> from palindrome import is palindrome 
>>> is palindrome('foobar') 

0 

>>> is palindrome('deified') 

1 


就 这 么 简单 ， 现 在 自己 动手 去 试 试 吧 。 不 过 要 小 心 , 别 忘 了 本 书 前 言 中 Waldi Ravens 的 名 言 。 
17.4 小结 


扩展 Python 是 个 庞大 的 主题 ， 本 章 只 对 其 做 了 晴 凤 点 水 式 的 介绍 ， 涉 及 的 内 容 如 下 。 

口 扩展 理念 : Python 扩 展 的 主要 用 途 有 两 个 一 一 利用 既 有 ( 遗留 ) 代码 和 提高 瓶颈 部 分 的 速 
度 。 从 头 开始 编写 代码 时 , 请 尝试 使 用 Python 建立 原型 ， 找 出 其 中 的 瓶颈 并 在 需要 时 使 用 
扩展 来 蔡 换 它们 。 预 先 将 潜在 的 瓶颈 封装 起 来 大 有 神 益 。 

口 Jython 和 IronPython: 对 这 些 Python 实现 进行 扩展 很 容易 ， 使 用 底层 语言 ( 对 于 Jython ， 
为 Java; 对 于 IronPython ， 为 C# 和 其 他 .NET 语 言 ) 以 库 的 方式 实现 扩展 后 ， 就 可 在 Python 
中 使 用 它们 了 。 

口 扩展 方法 : 有 很 多 用 于 扩展 代码 或 提高 其 速度 的 工具 , 有 的 让 你 更 轻松 地 在 Python 程序 中 
散 入 C 语 言 代 码 ， 有 的 可 提高 数字 数组 操作 等 常见 运算 的 速度 ， 有 的 可 提高 Python 本 身 的 
速度 。 这 样 的 工具 包括 SWIG、Cython、Weave、NumPy、ctypes 和 subprocess。 

口 SWIG: SWIG 是 一 款 自动 为 C 语 言 库 生 成 包装 代码 的 工具 。 包 装 代 码 自 动 处 理 Python C 
API， 使 你 不 必 自 己 去 做 这 样 的 工作 。 使 用 SWIG 是 最 简单 、 最 流行 的 扩展 Python 的 方式 
之 二 6 

口 使 用 Python/C API: 可 手工 编写 可 作为 共享 库 直 接 导 入 到 Python 中 的 C 语 言 代 码 。 为 此 ， 
必须 遵循 Python/C API: 对 于 每 个 函数 ， 你 都 需要 负责 完成 引用 计数 、 提 取 参 数 以 及 创建 
返回 值 等 工作 ; 另外 ， 还 需 编写 将 C 语 言 库 转换 为 模块 的 代码 ,包括 列 出 模块 中 的 函数 以 
及 创建 模块 初始 化 函数 。 


return PyModule _ Create(&palindrome ) ; 
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17.4.1 本 章 介 绍 的 新 函数 
函 。 数 描 述 


Py_INCREF(obj) 将 obj 的 引用 计数 加 1 
py_DECREF (obj) 


将 obj 的 引用 计数 减 1 











PyArg_ParseTuple(args, fmt, ...) 提取 位 置 参 数 
PyArg_ParseTupleAndKeywords(args, kws, fmt, kwlist) 提取 位 置 参数 和 关键 字 参 数 
PyBuildValue(fmt, value) 根据 C 语 言 值 创建 Pyobject 








17.4.2 ”预告 











至 此 , 你 应 该 能 够 编写 出 很 酷 的 程序 了 一 一 至 少 有 如 何 编写 很 酷 程序 的 点 子 。 如 果 你 要 与 人 
分 享 代码 之 类 的 东西 ， 下 一 章 介 绍 的 内 容 将 派 上 用 场 。 














程序 打包 


























程序 可 以 发 布 后 ， 你 可 能 想 先 将 它 打包 。 如 果 程 序 只 包含 一 个 .py 文件 ， 这 可 能 不 是 问题 。 
然而 ， 如 果 用 户 不 是 程序 员 ， 即 便 是 将 简单 的 Python 库 放 到 正确 的 位 置 或 调整 PYTHONPATH 也 可 能 
超出 了 其 能 力 范围 。 用 户 通常 希望 只 需 双击 安装 程序 ， 再 按 安装 向 导 说 的 做 就 能 将 程序 安装 好 。 

最 近 ，Python 程 序 员 也 已 习惯 了 类 似 的 便利 方式 ,但 使 用 的 接口 更 低级 些 。Setuptools 和 较 旧 
的 Distutils 都 是 用 于 发 布 Python 包 的 工具 包 , 让 你 能 够 使 用 Python 轻松 地 编写 安装 脚本 。 这些 脚 本 
可 用 于 生成 可 发 布 的 归档 文档 ， 供 用 户 用 来 编译 和 安装 你 编写 的 库 。 


本 章 重 点 介绍 Setuptools ， 因 为 这 是 每 个 Python 程序 员 都 要 用 到 的 工具 。 实 际 上 ，Setuptools 


并 非 只 能 用 于 创建 基于 脚本 的 Python 安装 程序 , 还 可 用 于 编译 扩展 。 另 外 , 通过 将 其 与 扩展 py2exe 
和 py2app 结 合 起 来 使 用 ， 还 可 创建 独立 的 Windows 和 macOS 可 执行 程序 。 


18.1 Setuptools 基础 

































































“Python 打包 用 户 指南 ”(packaging.python.org ) 和 Setuptools 官网 ( http://setuptools. 
readthedocs.io ) 有 很 多 相关 的 文档 。 使 用 Setuptools 可 完成 很 多 任务 ， 只 需 编 写 像 代码 清单 18-1 这 
样 简单 的 脚本 即 可 〈 如 果 还 没有 安装 Setuptools ， 可 使 用 pip 安 装 它 )。 





























代码 清单 18-1 简单 的 Setuptools 安 装 脚本 ( setup.py ) 


from setuptools import setup 


setup(name="'Hello', 
version="'1.0', 
description='A simple example', 
author='Magnus Lie Hetland', 
py_modules=[ 'hello' ]) 














并 非 一 定 要 向 函数 setup 提 供 上 面 列 出 的 所 有 信息 (实际 上 ， 可 不 提供 任何 参数 ), 但 也 可 提 
供 其 他 的 信息 (如 author _ email 或 url )。 这 些 参数 的 含义 应 该 是 不 言 自 明 的 。 请 将 代码 清单 18-1 
所 示 的 脚本 存储 为 setup.py( 这 适用 于 所 有 的 Setuptools 安 装 脚本 ), 并 确保 其 所 在 目录 包含 简单 模 
块 hello.py。 
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警告 


一 个 新 目录 中 ， 以 免 履 盖 既 有 的 文件 。 


下 面 来 看 看 如 何 使 用 这 个 简单 的 脚本 。 像 这 样 执行 它 : 

python setup .py 

将 出 现 类 似 于 下 面 的 输出 : 

usage: setup.py [global opts] cmd1 [cmd1 opts] [cmd2 [cmd2 opts] ...] 
or: setup.py --help [cmd1 cmd2 ...] 


or: setup.py --help-commands 
or: setup.py cmd --help 


error: no commands supplied 





从 上 述 输出 可 知 ,， 要 获得 更 多 的 信息 ， 可 使 用 开关 --help 或 --help-commands。 尝 试 执行 命令 


build， 让 Setuptools 行 动 起 来 。 
python setup.py build 


将 出 现 类 似 于 下 面 的 输出 : 


running build 

running build py 

creating build 

creating build/lib 

copying hello.py -> build/lib 





Setuptools 创 建 了 一 个 名 为 build 的 目录 ， 其 中 包含 子 目录 lib。 同 时 将 将 hello.py 复 制 到 了 这 个 
子 目 录 中 。 目 录 build 相 当 于 工作 区 ，Setuptools 在 其 中 组 装 包 ( 以 及 编译 扩展 库 等 )。 安 装 时 不 需 























安装 脚本 运行 时 ， 将 在 当前 目录 中 创建 新 的 文件 和 子 目 录 ， 因 此 你 可 能 应 该 将 其 存储 在 





要 执行 命令 build， 因 为 当 你 执行 命令 install 时 ， 如 果 需 要 ， 命 令 build 会 自动 运行 。 


注意 在 这 个 示例 中 ， 命 令 instal1 将 把 模块 hello.py 复 制 到 PYTHONPATH 指 定 的 特定 目录 中 。 这 应 
该 不 会 带 来 风险 ， 但 如 果 你 不 想 弄 乱 系统 ， 应 该 将 其 删除 。 为 此 ， 请 将 安装 位 置 记录 下 
来 ; 这 可 在 setup.py 的 输出 中 找到 。 你 也 可 使 用 开关 -n， 这 样 将 只 进行 演示 。 编 写本 书 期 
间 ， 没 有 标准 的 uninstall 命 令 ( 虽然 可 在 网 上 找到 自 定义 的 卸载 实现 )， 因 此 需要 手工 
印 载 安装 的 模块 。 


既然 说 到 命令 install， 下 面 就 来 尝试 安装 这 个 模块 : 
python setup.py install 
输出 应 该 非常 多 ， 其 末尾 的 内 容 类 似 于 下 面 这 样 : 


Installed /path/to/python3.5/site-packages/Hello-1.0-py3.5.egg 
Processing dependencies for Hello==1.0 


Finished processing dependencies for Hello==1.0 byte-compiling 














注意 ”如 果 运 行 的 Python 版 本 不 是 你 安装 的 ， 并 且 你 没有 合适 的 权限 ， 可 能 被 禁止 安装 模块 ， 
因为 你 没有 写 入 相应 目录 的 权限 。 




















这 就 是 用 于 安装 Python 模块 、 包 和 扩展 的 标准 机 制 。 你 只 需 提 供 一 个 小 小 的 安装 脚本 即 可 。 
如 你 所 见 ， 在 安装 过 程 中 ，Setuptools 创 建 了 一 个 .egg 文 件 ， 这 是 一 个 独立 的 Python 包 。 

在 这 个 脚本 中 , 只 使 用 了 Setuptools 指 令 py_modules。 如 果 要 安装 整个 包 , 可 以 类 似 的 方式 ( 列 
出 包 名 ) 使 用 指令 packages。 你 还 可 设置 很 多 其 他 的 选项 ( 18.3 节 将 介绍 其 中 的 一 些 )。 这 些 选 项 
让 你 能 够 指定 要 安装 什么 以 及 安装 到 什么 地 方 , 等 等 。 另 外 , 你 指定 的 配置 可 用 于 完成 多 项 任务 。 
下 一 节 将 介绍 如 何 将 指定 的 模块 打包 为 可 发 布 的 归档 文件 。 


18.2 打包 


编写 让 用 户 能 够 安装 模块 的 脚本 setup.py 后 ， 就 可 使 用 它 来 创建 归档 文件 了 。 你 还 可 使 用 它 
来 创建 Windows 安 装 程序 、RPM 包 、egg 文 件 、wheel 文 件 等 ( wheel 将 最 终 取 代 egg )。 这 里 只 介绍 
如 何 创建 .targz 文 件 ， 你 应 该 能 够 根据 文档 轻松 地 创建 其 他 格式 的 文件 。 

要 创建 源 代码 归档 文件 ， 可 使 用 命令 sdist (表示 source distribution )。 

python setup.py sdist 

如 果 执 行 上 述 命令 ， 可 能 出 现 大 量 的 输出 ， 其 中 包括 一 些 警 告 。 我 得 到 的 警告 包括 缺少 
author_email 选 项 、README 文 件 和 URL。 你 完全 可 以 对 这 些 警 告 置 若 冉 闻 ， 但 也 可 在 脚本 
setup.py 中 添加 author_email ( 类似 于 选项 author )， 并 在 当前 目录 中 添加 文本 文件 README.txt。 

在 警告 的 后 面 ， 是 类 似 于 下 面 的 输出 : 


creating Hello-1.0/Hello.egg-info 

making hard links in Hello-1.0... 

hard linking hello.py -> Hello-1.0 

hard linking setup.py -> Hello-1.0 

hard linking Hello.egg-info/PKG-INFO -> Hello-1.0/Hello.egg-info 

hard linking Hello.egg-info/SOURCES.txt -> Hello-1.0/Hello.egg-info 
hard linking Hello.egg-info/dependency links.txt -> Hello-1.0/Hello.egg-info 
hard linking Hello.egg-info/top level.txt -> Hello-1.0/Hello.egg-info 
Writing Hello-1.0/setup.cfg 

Creating tar archive 

removing 'Hello-1.0' (and everything under it) 


现在 , 除 目 录 build 外 , 应 该 还 有 一 个 名 为 dist 的 目录 。 在 这 个 目录 中 , 有 一 个 名 为 Hello-1.0.targz 
的 文件 。 你 可 将 其 分 发 给 他 人 ， 而 对 方 可 将 其 解压 缩 ， 再 使 用 脚本 setup.py 进 行 安装 。 如 果 你 不 
想 生 成 .tar.gz 文 件 ， 还 有 其 他 几 种 分 发 格式 可 供 使 用 。 要 设置 分 发 格式 ， 可 使 用 命令 行 开关 
--formats (这 个 开关 为 复数 形式 ， 表 明 你 可 指定 多 种 用 逗号 分 隔 的 格式 ， 这 样 将 一 次 性 创建 多 
个 归档 文件 )。 要 获悉 可 使 用 的 格式 列表 ， 可 给 命令 sdist 指 定 开 关 --help-formats。 
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18.3 ”编译 扩展 


第 17 章 介绍 了 如 何 编写 Python 扩展 。 你 可 能 也 认为 这 些 扩 展 编译 起 来 有 点 麻烦 ， 所 幸 
Setuptools 也 可 用 来 完成 这 种 任务 。 你 可 能 想 回 过 头 去 看 看 第 17 章 中 程序 palindrome 的 源 代 码 ( 代 
人 码 清单 17-6 )。 假 设 这 个 源 代 码 文件 (palindrome2.c ) 位 于 当前 目录 中 ， 则 可 使 用 下 面 的 setup.py 
脚本 来 编译 ( 并 安装 ) 它 : 


from setuptools import setup, Extension 



































setup(name='palindrome '， 
Version= 1.0 ， 
ext modules = [ 
Extension('palindrome', ['palindrome2.c']) 


]) 

如 果 你 使 用 这 个 脚本 运行 命令 install, 将 自动 编译 扩展 模块 palindrome 再 安装 它 。 如 你 所 
见 ， 这 里 没有 指定 一 个 模块 名 列表 ， 而 是 将 参数 ext_modules 设 置 为 一 个 Extension 实 例 列表 。 
构造 函数 Extension 将 一 个 名 称 和 一 个 相关 文件 列表 作为 参数 ; 例如 ， 可 在 这 个 文件 列表 中 指 
定 头 文件 ( .h )。 

如 果 只 想 就 地 编译 扩展 ( 在 大 多 数 UNIX 系 统 中 ， 这 都 将 在 当前 目录 中 生成 一 个 名 为 
palindrome.so 的 文件 )， 可 使 用 如 下 命令 : 

python setup.py build ext --inplace 


现在 来 看 最 有 趣 的 地 方 。 如 果 你 安装 了 SWIG (参见 第 17 章 )， 可 让 Setuptools 直 接 使 用 它 ! 

请 看 代码 清单 17-3 中 palindrome.c 的 源 代 码 ( 不 包含 包装 代码 )， 它 显然 比 包装 后 的 版 本 简单 
得 多 。 能 够 让 Setuptools 使 用 SWIG 并 直接 将 其 作为 Python 扩展 确实 非常 方便 。 为 此 ， 需 要 做 的 非 
常 简 单 ， 只 需 将 接口 文件 ( .i 文件 ， 参 见 代码 清单 17-5 ) 的 名 称 加 入 到 Extension 实 例 的 文件 列表 
中 即 可 。 


from setuptools import setup, Extension 





























setup(name='palindrome '， 
Version= 1.0 ， 
ext modules = [ 
Extension(' palindrome', ['palindrome.c', 
‘palindrome.i' ]) 
]) 


如 果 用 刚才 的 命令 (build ext， 可 能 还 要 加 上 开关 --inplace ) 运行 这 个 脚本 ， 也 将 生成 
一 个 .so 文件 (或 与 之 等 价 的 文件 )， 但 这 次 无 需 自 己 编写 包装 代码 。 注 意 ， 我 给 这 个 扩展 指定 
了 名 称 palindrome, 因为 SWIG 将 创建 一 个 名 为 palindrom.py 的 包装 器 , 而 这 个 包装 器 将 通过 名 
称 _palindrome 导 入 一 个 C 语 言 库 。 
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18.4 ”使 用 py2exe 创建 可 执行 程序 


py2exe 是 Setuptools 的 一 个 扩展 ( 可 通过 pip 来 安装 它 )， 让 你 能 够 创建 可 执行 的 Windows 程 序 
( .exe 文 件 )。 这 在 你 不 想 给 用 户 增 加 单独 安装 Python 解 释 器 的 负担 时 很 有 用 。py2exe 包 可 用 来 创 
建 带 GUI (参见 第 12 章 ) 的 可 执行 文件 。 下 面 将 使 用 这 个 非常 简单 的 示例 : 


print('Hello, world!') 
input('Press <enter>') 


同样 ， 创 建 一 个 空 目录 ， 再 将 这 个 文件 (hello.py ) 放 到 这 个 目录 中 ， 人 然后 创建 一 个 类 似 于 
下 面 的 setup.py 文 件 : 


from distutils.core import setup 
import py2exe 
































setup(console=[ 'hello.py' ]) 

你 可 像 下 面 这 样 运行 这 个 脚本 : 

python setup.py py2exe 

这 将 创建 一 个 控制 台 应 用 程序 ( hello.exe )， 还 将 在 子 目录 dist 中 创建 其 他 几 个 文件 。 你 可 从 
命令 行 运 行 这 个 应 用 程序 ， 也 可 通过 双击 来 运行 它 。 

有 关 py2exe 的 工作 原理 和 高 级 用 法 的 详细 信息 , 请 参阅 py2exe 官 网 ( http://www.py2exe.org )。 
如 果 你 使 用 的 是 macOS ， 可 能 想 了 解 一 下 py2app (http:/pythonhosted.org/py2app )， 它 提供 了 与 
py2exe 类 似 的 功能 。 


要 让 别人 能 够 使 用 pip 安 装 你 开发 的 包 ， 必 须 向 Python Package Index (PyPI ) 注册 它 。 标 
准 库 文档 详尽 地 描述 了 其 中 的 工作 原理 ， 但 你 基本 上 只 需 使 用 下 面 的 命令 : 

python setup.py register 

这 将 打开 一 个 菜单 ， 让 你 能 够 登录 或 注册 。 注 册 包 后 ， 就 可 使 用 命令 upload 将 其 上 传 到 
PyPI。 例如 ， 下 面 的 命令 将 上 传 一 个 源 代码 分 发 包 。 

python setup.py sdist upload 






































18.5 小结 


至 此 ， 你 知道 了 如 何 创建 带 GUI 安 装 程 序 的 专业 级 软件 或 自动 生成 .targz 文 件 。 现 对 本 章 介 
绍 的 概念 总 结 如 下 。 
口 Setuptools: Setuptools 工 具 包 让 你 能 够 编写 安装 脚本 。 根 据 约定 ， 这 种 安装 脚本 被 命名 
为 setup.py。 使 用 这 种 脚本 ， 可 安装 模块 、 包 和 扩展 。 
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口 Setuptools 的 命令 : 可 使 用 多 个 命令 来 运行 setup.py 脚 本 ， 如 build、build ext、install、 
sdist 和 bdist。 

D 编译 扩展 : 可 使 用 Setuptools 来 自动 编译 C 语 言 扩 展 ， 并 让 Setuptools 自 动 确定 Python 安装 
位 置 以 及 该 使 用 哪个 编译 器 。 还 可 让 它 自 动 运 行 SWIG。 

口 可 执行 的 二 进 制 文件 : Setuptools 扩 展 py2exe 可 用 来 从 Python 程序 创建 可 执行 的 Windows 
二 进 制 文件 以 及 其 他 一 些 文件 〈 可 使 用 安装 程序 方便 地 安装 )。 无 需 单独 安装 Python 解释 
器 ， 就 可 运行 这 些 .exe 文 件 。 在 macOS 中 ， 扩 展 py2app 提 供 了 与 py2exe 类 似 的 功能 。 


18.5.1 本 章 介 绍 的 新 函数 


函 数 描 述 
setuptools. setup(...) 在 脚本 setup.py 中 使 用 关键 字 参 数 配 置 Setuptools 
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18.5.2 ”预告 


有 关 技 术 方面 的 内 容 就 介绍 到 这 里 。 下 一 章 将 介绍 一 些 编程 方法 和 理念 , 然后 你 就 可 以 开始 
动手 创建 项 目 了 。 愿 你 玩 得 愉快 ! 




















趣味 编程 








对 于 Python 的 工作 原理 ， 你 现在 应 该 比 最 初 有 了 更 清晰 的 认识 。 俗 话说 ， 养 兵 千 日 ,用 兵 一 
时 。 在 接 下 来 的 10 章 中 ， 你 将 把 新 学 到 的 技能 付 诸 应 用 。 每 章 都 包含 一 个 DIY 项 目 ， 既 提供 了 很 
大 的 实验 空间 ， 又 介绍 了 实现 解决 方案 所 需 的 工具 。 

本 章 将 介绍 一 些 通用 的 Python 编 程 指 南 。 


19.1 ”为何 要 有 趣 


我 认为 Python 的 优点 之 一 是 让 编程 变 得 有 趣 一 一 至 少 在 我 看 来 如 此 。 当 你 感到 有 趣 时 ， 实 现 
高 效 就 容易 得 多 ， 而 Python 有 趣 的 地 方 之 一 就 是 让 你 非常 高 效 。 这 就 形成 了 在 生活 中 很 难得 的 良 
性 循环 。 

“有 趣 的 编程 ”是 我 自己 发 明 的 表达 ， 指 的 是 不 那么 极端 的 极限 编程 (XP ) "版 本 。XP 运 动 
的 很 多 理念 我 都 喜欢 ， 但 我 太 懒 ， 无 法 严格 遵守 这 些 原则 。 因 此 ， 我 挑 出 其 中 的 一 些 要 点 ， 并 将 
其 沟 合 到 自然 的 Python 程 序 开发 方法 中 。 


19.2 ”编程 柔 术 


你 听 说 过 柔 术 吗 ? 这 是 一 种 日 本 武术 ， 类 似 于 从 它 衍生 而 来 的 柔道 和 合 气 道 ”， 也 注重 灵活 
的 反应 ， 宁 弯 勿 折 : 不 力图 用 计划 好 的 动作 打击 对 手 ， 而 是 顺势 而 为 ， 借 力 打 力 。 这 样 ( 从 理论 
上 说 ) 能 打败 比 你 更 高 大 、 更 狐 独 、 更 强壮 的 对 手 。 

如 何 将 这 种 理念 用 于 编程 呢 ?” 关 键 在 “ 柔 ” 字 上 ， 也 就 是 灵活 性 。 在 编程 过 程 中 过 到 麻烦 
(肯定 会 遇 到 ) 时 ， 不 要 固守 最 初 的 设计 和 想法 ， 而 要 灵活 变通 ， 以 柔 克 刚 。 要 做 好 应 对 并 适 
应 变化 的 准备 , 不 将 意外 的 事故 视 为 令 人 气 包 的 打击 ,而 是 将 其 看 作 让 你 重新 探索 新 选项 和 可 
能 性 的 契机 。 

问题 是 当 你 坐 下 来 规划 程序 时 ， 对 于 这 个 具体 的 程序 , 还 没有 任何 经 验 。 怎 么 会 有 这 样 的 经 





























































































































Q 极限 编程 是 一 种 软件 开发 方法 ， 已 被 程序 员 采 纳 多 年 ， 但 最 初 是 由 Kent Beck 命 名 并 定义 的 。 详 细 信息 请 参阅 
http://www.extremeprogramming.org。 


@ 以 及 与 之 类 似 的 中 国武 术 ， 如 太极 拳 和 八卦 掌 。 
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验 呢 ? 毕竟 这 个 程序 还 不 存在 呢 。 在 实现 的 过 程 中 , 你 将 逐渐 有 新 的 认识 ， 而 倘若 你 最 初 设计 时 
有 这 样 的 认识 , 将 大 有 神 益 。 因 此 ， 不 应 无 视 你 一 路 走 来 获得 的 经 验 教训 ， 而 应 利用 它们 来 重新 
设计 ( 重 构 ) 既 有 的 软件 。 我 的 意思 是 ,你 应 该 做 好 应 对 变化 的 心理 准备 ， 并 欣然 接受 最 初 的 设 
计 肯 定 需要 修订 的 事实 ， 而 不 是 在 没有 确定 前 进 方向 的 情况 下 随意 尝试 。 正 如 一 位 老 作家 所 言 : 
写作 就 是 重 写 。 

这 种 灵活 性 涵盖 很 多 方面 ， 这 里 只 简要 地 介绍 其 中 的 两 个 。 
口 原型 设计 : Python 的 优点 之 一 是 让 你 能 够 快速 地 编写 程序 。 要 更 深入 地 了 解 面临 的 问题 ， 
编写 原型 程序 是 一 种 很 好 的 办 法 。 
口 配置 : 灵活 性 形式 多 样 。 配 置 旨 在 让 程序 的 某 些 方面 修改 起 来 更 容易 一 一 对 你 和 用 户 来 

说 都 如 此 。 

第 三 个 方面 是 自动 化 测试 ， 要 能 够 轻松 地 修改 程序 ,这 绝对 必 不 可 少 。 有 了 测试 后 ， 你 就 能 
确信 程序 在 修改 后 也 能 正确 地 运行 。 原型 设计 和 配置 将 在 接 下 来 的 两 节 讨论 。 有 关 测 试 的 详细 信 
息 ， 请 参阅 第 16 章 。 


19.3 ”原型 设计 


一 般 而 言 ， 如 果 想 知道 Python 某 个 方面 的 工作 原理 ， 可 尝试 使 用 它 。 为 此 ， 你 无 需 做 大 量 
的 预 处 理工 作 ( 如 对 众多 其 他 语言 来 说 必 不 可 少 的 编译 或 链接 )， 而 可 直接 运行 代码 。 不 仅 如 
此 ， 还 可 在 交互 式 解 释 器 中 运行 各 个 代码 片段 ， 对 每 个 方面 都 进行 探究 ， 直 到 透彻 理解 代码 的 
行为 为 止 。 

这 种 探索 并 不 限于 语言 功能 和 内 置 函数 。 诚然 ,能够 准确 地 了 解 iter 等 函数 的 工作 原理 很 有 
用 ,但 更 重要 的 是 能 够 轻松 地 创建 程序 原型 ， 以 便 了 解 其 工作 原理 。 









































































































































注意 在 这 里 ， 原 型 ( prototype ) 指 的 是 尝试 性 实现 ， 即 一 个 模型 。 它 实现 了 最 终 程序 的 主 
要 功能 ， 但 在 后 期 可 能 需要 重 写 ,也 可 能 不 用 重 写 。 通 常 ， 最初 的 原型 都 能 变 成 可 行 
的 程序 。 


对 程序 的 结构 ( 如 需要 哪些 类 和 函数 ) 有 一 定 的 想法 后 ,建议 你 实现 一 个 功能 可 能 极其 有 限 
的 简单 版 本 。 当 你 有 了 可 运行 的 程序 后 , 将 发 现 接 下 来 的 工作 容易 得 多 。 你 可 添加 新 功能 ,修改 
不 喜欢 的 方面 ， 等 等 。 这 样 你 才能 够 真正 明白 程序 的 工作 原理 ， 而 不 仅仅 是 设想 或 画 草 图 。 

无 论 你 使 用 的 是 哪 种 编程 语言 ， 都 可 进行 原型 设计 ,但 Python 的 优点 在 于 ， 使 用 它 编写 模型 
的 投入 很 少 , 因此 完全 可 以 弃 之 不 用 。 如 果 发 现 设计 不 够 精巧 ， 只 需 将 原型 丢弃 ， 再 重 打 锣鼓 新 
开张 。 这 个 过 程 可 能 需要 几 小 时 或 一 两 天 ， 但 如 果 你 使 用 C++ 等 语言 编程 ， 编 写 模 型 的 工作 量 可 
能 多 得 多 , 弃 之 不 用 将 是 个 艰难 的 抉择 。 固守 一 个 版 本 就 会 失去 灵活 性 : 你 将 受制 于 早期 的 决策 ， 
而 根据 你 在 实现 过 程 中 获得 的 经 验 ， 这 些 决 策 可 能 是 错误 的 。 

在 本 书后 面 的 项 目 中 , 我 将 始终 使 用 原型 设计 , 不 预先 进行 详细 的 分 析 和 设计 。 每 个 项 目 都 
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有 两 个 实现 。 第 一 个 实现 是 摸 着 石头 过 河 : 拼凑 出 一 个 能 够 解决 问题 (或 部 分 问题 ) 的 程序 ， 以 
便 了 解 需要 的 组 件 以 及 对 优秀 解决 方案 的 要 求 。 在 这 个 过 程 中 , 最 重要 的 可 能 就 是 看 到 程序 的 各 
种 缺陷 。 基 于 这 些 新 的 认识 ， 再 次 尝试 解决 面临 的 问题 ， 而 此 时 我 的 判断 力 和 洞察 力 可 能 更 强 。 
当然 ,你 可 以 对 代码 进行 修订 ,其 至 开始 第 三 次 实现 。 通常 ,推倒 重 来 所 需 的 时 间 没 有 你 想 中 那 
么 长 。 只 要 你 对 程序 的 实际 情况 有 详尽 的 认识 ,输入 代码 应 该 不 需要 太 长 的 时 间 。 


不 要 推倒 重 来 


虽然 这 里 提倡 使 用 原型 ， 但 务必 对 推倒 重 来 持 谨慎 态度 ， 在 你 为 编写 原型 投入 了 不 少时 
间 和 精力 时 尤其 如 此 。 更 好 的 选择 可 能 是 ， 对 原型 进行 重 构 和 修改 ,让 其 变 成 功能 上 更 好 的 
系统 ， 其 原因 有 多 个 。 

一 个 可 能 出 现 的 常见 问题 是 “第 二 系统 综合 征 ”， 即 力图 让 第 二 个 版 本 非常 灵巧 或 完美 
无 缺 ， 导 致 永远 没有 完工 的 时 候 。 

“不 断 重 写 综合 征 ”在 小 说 创作 领域 很 常见 ， 指 的 是 不 断 地 修改 程序 ， 甚 至 推倒 重 来 。 
在 有 些 情况 下 ， 让 程序 “还 行 ”可 能 是 最 佳 的 策略 一 一 管用 就 好 。 

还 有 “代码 疲劳 症 ”， 即 你 对 代码 逐渐 感到 厌烦 。 你 花 了 很 长 时 间 来 编写 代码 ， 却 发 现 
它 丑 陋 而 策 拙 。 寻 致 代码 看 起 来 粗糙 而 策 拙 的 原因 之 一 是 ， 必 须 处 理 各 种 特殊 情况 并 包含 多 
种 形式 的 错误 处 理 等。 无 论 如 何 ， 在 新 版 本 中 也 必须 包含 这 些 功能 ， 而 最 初 为 了 实现 它们 ， 
你 可 能 花 了 很 大 的 精力 (更 别 说 为 调试 花费 的 精力 了 ) 。 

换 而 言 之 ， 如 果 你 觉得 原型 还 有 得 救 ， 能 变 成 可 行 的 系统 ， 就 应 竭尽 所 能 地 修改 它 ， 而 
不 是 推倒 重 来 。 在 本 书后 面 关于 开发 项 目的 章节 中 ， 我 将 开发 成 果 分 成 了 界线 清晰 的 两 个 版 
本 : 原型 和 最 终 的 程序 。 这 样 做 既是 出 于 清晰 考虑 ， 也 是 为 了 突出 通过 编写 软件 的 第 一 个 版 
本 获得 的 经 验 和 洞察 力 。 在 实际 开发 工作 中 ， 完 全 可 以 先 开发 原型 ， 再 通过 重 构 它 来 获得 最 
终 的 系统 。 

要 深入 地 了 解 推倒 重 来 的 丽 怖 之 处 ， 请 参阅 Joel Spolsky 撰 写 的 文章 “Things You Should 
Never Do, Part [” http://joelonsoftware.com ) 。 据 Spolsky 讲 ， 对 所 有 软件 公司 来 说 ， 推 倒 重 
来 都 是 最 严重 的 策略 性 错误 。 
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19.4 配置 


本 节 重 温 抽 象 这 一 重要 原则 。 第 6 章 和 第 7 章 介 绍 了 如 何 提高 代码 的 抽象 程度 , 这 是 通过 将 代 
码 放 在 函数 和 方法 中 并 将 较 大 的 结构 隐藏 在 类 中 实现 的 。 下 面 来 看 看 男 一 种 简单 得 多 的 提高 程序 
抽象 程度 的 方式 : 提取 代码 中 的 符号 常量 ( symbolic constant )。 





























19.4.1 提取 常量 
所 谓 常量 ， 指 的 是 内 置 的 字面 量 值 ， 如 数 、 字 符 串 和 列表 。 对 于 这 些 值 ， 可 将 其 存储 在 全 局 
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变量 中 ， 而 不 在 程序 中 反复 输入 它们 。 本 书 前 面 发 出 过 警告 ， 让 你 少 用 全 局 变量 , 但 全 局 变量 存 
在 的 问题 仅 在 被 修改 时 才 会 呈现 出 来 ， 因 为 很 难 确定 代码 的 哪 部 分 修改 了 哪些 全 局 变量 。 然 而 ， 
我 不 会 修改 这 些 全 局 变量 ， 而 是 将 它们 作为 常量 ( 即 符 号 常量 )。 要 指出 变量 被 视 为 符号 常量 ， 
可 遵循 一 种 特殊 的 命名 约定 : 只 在 变量 名 中 使 用 大 写字 母 并 用 下 划 线 分 隔 单词 。 

下 面 来 看 一 个 示例 。 在 计算 圆 的 面积 和 周 长 的 程序 中 ， 可 在 每 次 需要 r 值 时 都 输入 3.14。 但 
如 果 后 来 需要 更 精确 的 值 ， 如 3.141 59 呢 ? 你 需要 搜索 整个 代码 , 将 原来 的 值 都 替换 为 新 值 。 这 不 
难 ， 在 大 多 数 还 算 不 错 的 文本 编辑 器 中 都 可 自动 完成 。 然 而 ， 如 果 你 最 初 使 用 的 r 值 是 3 ， 而 后 来 
要 使 用 3.141 59 呢 ? 在 这 种 情况 下 ,几乎 不 能 自动 将 3 都 替换 为 3.141 59。 一 种 更 好 的 处 理 办 法 是 ， 
在 程序 开头 包含 代码 行 PI = 3.14， 然 后 使 用 名 称 PI 而 不 是 数 本 身 。 这 样 ， 以 后 要 使 用 更 精确 的 
值 时 , 只 需 修改 这 行 代码 即 可 。 请 牢记 下 面 一 点 : 每 当 你 需要 输入 常量 ( 如 数字 42 或 字符 串 Hello， 
world! ) 多 次 时 ， 都 应 考虑 将 其 存储 在 全 局 变量 中 。 













































































注意 x 的 值 包含 在 模块 math 内 的 名 称 pi 中 : 


>>> from math import pi 
>>> pi 
3.1415926535897931 





对 你 来 说 ， 这 一 点 可 能 显而易见 ， 但 真正 的 重点 在 讨论 配置 文件 的 下 一 节 。 


19.4.2 ”配置 文件 


虽然 可 以 为 自己 方便 而 提取 常量 , 但 有 些 常量 必须 暴露 给 用 户 。 例如 ,如果 用 户 不 喜欢 你 纺 
写 的 GUI 程 序 的 背景 色 ， 可 能 应 该 允许 他 们 使 用 其 他 颜色 ; 对 于 你 开发 的 街机 游戏 ， 可 让 用 户 决 
定 启动 时 显示 的 问候 消息 ; 对 于 你 开发 的 Web 浏 览 器 ， 可 让 用 户 决定 默认 显示 的 起 始 页 面 。 

可 将 这 些 配置 变量 放 在 独立 的 文件 中 ， 而 不 将 它们 放 在 模块 开头 。 为 此 ,最 简单 的 方式 是 专 
门 为 配置 创建 一 个 模块 。 例 如 ， 如 果 PI 是 在 模块 文件 config.py 中 设置 的 ， 就 可 在 主 程序 中 像 下 面 
这 样 做 : 

from config import PI 


这 样 ， 如 果 要 修改 PI 的 值 ， 只 需 编辑 config.py， 而 不 用 在 代码 中 搜索 。 


























警告 使 用 配置 文件 有 利 有 兽 。 一 方面 ， 配 置 很 有 用 ; 但 另 一 方面 ， 使 用 针对 整个 项 目的 中 央 
共享 变量 库 可 能 降低 项 目的 模块 化 程度 ( 即 增 大 辜 合 程度 )。 因此， 使 用 配置 文件 时 ， 务 
必 不 要 破坏 抽象 ( 如 封装 )。 





男 一 种 方法 是 使 用 标准 库 模 块 configparser， 从 而 可 在 配置 文件 中 使 用 标准 格式 。 这 样 既 可 
使 用 Python 标 准 赋值 语法 ， 如 下 所 示 ( 这 将 在 字符 串 中 添加 两 个 多 余 的 引号 ): 


greeting = 'Hello, world!’ 
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也 可 使 用 很 多 程序 都 采用 





的 另 一 种 配置 格式 : 








greeting: Hello, world! 


必须 使 用 [files] 、[colors] 等 标题 将 配置 文件 分 成 几 部 分 ( section )。 标题 的 名 称 可 随便 指 
定 ， 但 必须 将 它们 用 方 括 号 括 起 。 代 码 清单 19-1 是 一 个 简单 的 配置 文件 ， 而 代码 清单 19-2 是 一 个 























使 用 该 配置 文件 的 程序 。 要 深入 了 解 模块 configparser 提 供 的 功能 ， 请 参阅 库 文档 。 
代码 清单 19-1 一 个 简单 的 配置 文件 





[numbers] 
pi: 3.1415926535897931 


[messages] 


greeting: Welcome to the area calculation program! 
question: Please enter the radius: 


result message: The area is 


代码 清单 19-2 一 个 使 用 ConfigParser 的 程序 


from configparser import ConfigParser 


CONFIGFILE = "area.ini" 


config = ConfigParser() 
# 读 取 配置 文件 : 
config.read(CONFIGFILE) 


# 打印 默认 问候 语 (greeting) : 


# 在 messages 部 分 查找 问候 语 : 
print(config[ 'messages' ] .ge 


t('greeting')) 


# 使 用 配置 文件 中 的 提示 (question) 让 用 户 输入 半径 : 





radius = float(input(config 


'messages' ].get('question ) + ' ')) 


# 打印 配置 文件 中 的 结果 消息 (result_message) ; 
# 以 空格 结束 以 便 接着 在 当前 行 打印 : 


print(config[ 'messages' ] .ge 


t('result message'), end=" ') 


# getfloat() 将 获取 的 值 转换 为 浮 点 数 : 
print(config[ 'numbers'] .getfloat('pi') * radius**2) 








在 本 书后 面 的 项 目 中 , 不 会 涉及 太 多 有 关 配 置 的 细节 , 但 建议 你 考虑 让 程序 是 可 配置 的 。 这 
样 , 用户 就 可 根据 自己 的 偏好 修改 程序 ,可 能 让 他 们 使 用 程序 时 的 心情 更 为 愉悦 。 毕 竟 使 用 软件 


时 面临 的 主要 挫折 之 一 是 不 能 


让 它 按 自 己 希 望 的 方式 行事 。 
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配置 的 级 别 


可 配置 性 是 UNIX 编 程 传统 的 有 机 组 成 部 分 。Eric S. Raymond 在 其 杰作 《UNIX 编 程 艺术 》 
的 第 10 章 ， 描 述 了 配置 或 控制 信息 的 如 下 三 个 来 源 ， 你 应 按 这 里 的 排列 顺序 查询 这 些 来 源 ”， 
让 后 面 的 来 源 履 盖 前 面 的 来 源 。 

口 配置 文件 : 参见 19.4.1 节 。 

口 环境 变量 : 可 使 用 字典 os.environ 来 获取 它们 。 

口 在 命令 行 中 向 程序 传递 的 开关 和 参数 : 要 处 理 命令 行 参 数 ， 可 直接 使 用 sys.argv; 要 
处 理 开 关 ( 选项 ) ， 应 使 用 第 10 章 提 到 的 模块 arfgparse。 














19.5 日 志 





日 志 与 第 16 章 讨论 的 测试 有 一 定 的 关系 ， 而 且 在 需要 大 规模 改造 程序 的 内 部 构造 时 很 有 用 
它 无 疑 能 够 帮助 你 发 现 问题 和 bug。 日 志 大 致 上 就 是 收集 与 程序 运行 相关 的 数据 ， 供 你 事后 进行 
研究 或 积累 。print 语 句 是 一 种 简单 的 日 志 形 式 。 要 使 用 这 种 日 志 形 式 ， 只 需 在 程序 开头 包含 一 
条 类 似 于 下 面 的 语句 : 

log = open('logfile.txt', 'w') 

然后 就 可 将 任何 感 兴趣 的 程序 状态 信息 写 人 这 个 文件 ， 如 下 所 示 : 


print('Downloading file from URL', url, file=log) 
text = urllib.urlopen(url).read() 
print'File successfully downloaded', file=l0g) 


如 果 程 序 在 下 载 期 间 前 省 ， 这 种 方法 的 效果 就 不 会 很 好 。 更 安全 的 做 法 是 , 在 每 条 日 志 语 句 
前 后 都 打开 和 关闭 文件 ( 至 少 应 该 在 写 入 后 刷新 文件 )。 这 样 ， 即 便 程 序 骨 省， 也 将 看 到 日 志文 
件 的 最 后 一 行为 “Downloading file from URL”， 从 而 知道 下 载 失 败 了 。 

实际 上 ， 正 确 的 做 法 是 使 用 标准 库 中 的 模块 logging。 这 个 模块 的 基本 用 法 非常 简单 ， 代 码 
清单 19-3 所 示 的 程序 证 明了 这 一 点 。 


代码 清单 19-3 ”一 个 使 用 模块 logging 的 程序 


import logging 

























































































logging.basicConfig(level=logging.INFO, filename="'mylog.1og') 
logging.info('Starting program') 
logging.info('Trying to divide 1 by 0') 


print(1 / 0) 























实际 上 ， 这 些 配 置 来 源 的 前 面 还 有 全 局 配置 文件 和 设置 系统 的 环境 变量 。 详 情 请 参阅 《UNIX 编 程 艺 术 》。 
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logging.info('The division succeeded') 


logging.info('Ending program') 
运行 这 个 程序 时 ， 将 生成 下 面 的 日 志文 件 ( mylog.log ): 


INFO:root:Starting program 
INFO:root:Trying to divide 1 by 0 


如 你 所 见 , 试图 将 1 除 以 0 后 什么 都 没有 记录 下 来 ,因为 这 种 错误 将 导致 程序 终止 。 这 是 一 种 
简单 的 错误 , 你 可 根据 程序 谣 省 时 打印 的 异常 来 跟踪 确定 问题 出 在 什么 地 方 。 不 会 导致 程序 终止 、 
而 只 是 让 它 行 为 异常 的 bug 是 最 难 查找 的 ， 但 通过 查看 详尽 的 日 志文 件 也 许 能 够 帮助 你 找 出 问题 
出 在 什么 地 方 。 

这 个 示例 中 的 日 志文 件 并 不 是 很 详细 ， 但 通过 合理 地 配置 模块 logging， 可 让 日 志 以 你 希望 
的 方式 运行 。 下 面 是 儿 个 这 样 的 示例 。 

口 记录 不 同类 型 的 条 目 〈 信息、 调试 信息 、 和 警告 、 自 定义 类 型 等 )。 默 认 情 况 下 ， 只 记录 警 
告 。( 这 就 是 我 在 代码 清单 19-3 中 显 式 地 将 level 设 置 为 ogging.INF0 的 原因 所 在 。) 

D 只 记录 与 程序 特定 部 分 相关 的 条 目 。 

口 记录 有 关 时 间 、 日 期 等 方面 的 信息 。 

口 记录 到 其 他 位 置 ， 如 套 接 字 。 

口 配置 日 志 器 ， 将 一 些 或 大 部 分 日 志 过 滤 掉 ， 这 样 无 需 重 写 程 序 就 能 获得 所 需 的 日 志 信 息 。 
模块 logging 非 常 复杂 ， 文 档 中 还 提供 了 其 他 很 多 相关 的 信息 。 


19.6 ”如 果 你 已 不 胜 其 烦 


你 可 能 认为 :“ 这 些 是 挺 好 ， 但 编写 简单 的 小 程序 时 ， 我 绝 不 会 在 这 些 方面 花费 太 多 精力 。 
配置 、 测 试 和 日 志 ， 这 些 听 起 来 真 的 很 烦 。 

你 说 得 没 错 , 编写 简单 的 程序 时 确实 不 需要 这 些 东 西 。 即 便 开发 的 项 目 很 大 , 刚 开始 也 可 能 
并 不 需要 所 有 这 些 东 西 。 我 要 说 的 是 ， 你 至 少 需要 某 种 测试 程序 的 方式 〈 这 在 第 16 章 讨论 过 )， 
虽然 它 可 能 不 是 基于 自动 化 单元 测试 的 。 例 如 ,如果 你 要 编写 一 个 自动 制作 咖啡 的 程序 ， 必 须 得 
有 个 咖啡 壶 才能 测试 这 个 程序 是 否 管用 。 

在 后 面 介 绍 项 目的 章节 中 , 我 不 会 编写 完整 的 测试 套件 和 复杂 的 日 志 工具 , 而 只 是 通过 一 些 
简单 的 测试 用 例 来 证 明 程序 管用 , 仅 此 而 已 。 如 果 你 发 现 某 个 项 目的 核心 理念 很 有 趣 ， 应 再 进 
步 , 尝试 对 其 进行 改进 和 扩展 ; 而 在 改进 和 扩展 的 过 程 中 , 你 就 必须 考虑 本 章 提 及 的 问题 。 例 如 ， 
添加 配置 机 制 是 否 是 个 好 主意 ? 是 不 是 需要 编写 更 完整 的 测试 套件 ? 如 何 做 完全 由 你 决定 。 


19.7 ”如 果 你 想 深 入 学 习 
如 果 你 想 深 入 了 解 编程 的 艺术 、 技 能 和 理念 ， 下 面 这 些 图 书 对 这 些 主题 做 了 更 深入 的 讨论 。 
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口 Andrew Hunt 和 David Thomas 的 著作 《程序 员 修 炼 之 道 》 

口 Martin Fowler 等 的 著作 《 重 构 》"。 

口 四 人 组 Erich Gamma 、Richard Helm、Ralph Johnson 和 John Vlissides 的 著作 《设计 模式 》 
口 Kent Beck 的 著作 《测试 驱动 开发 》 

口 Eric S. Raymond 的 著作 《UNIX 编 程 艺 术 》”。 

口 Thomas H. Cormen 等 的 著作 《算法 导论 六 

口 高 德 纳 的 著作 《计算 机 程序 设计 艺术 》( 卷 1~ 卷 3 ) ”。 

口 Peter Van Roy 和 Seif Haridi 的 著作 Concepts, Techniques, and Models of Computer Programming。 




















就 算 不 详细 阅读 这 些 著作 ( 我 反正 没有 详细 阅读 )， 随 便 翻 翻 也 将 让 你 深 受 启迪 。 


19.8 ”小结 











本 章 介绍 了 一 些 通用 的 Python 编程 原则 和 技巧 ， 我 将 它们 统称 为 “有 趣 的 编程 ”。 下 面 是 其 




















中 一 些 要 点 。 






































口 灵活 性 : 设计 和 编程 时 ， 应 以 灵活 性 为 目标 。 随 着 对 所 面临 问题 了 解 得 越 来 越 深 入 ， 你 
应 心甘情愿 乃至 随时 准备 修改 程序 的 方方面面 ， 不 要 固守 最 初 的 想法 。 

















口 原型 设计 : 要 深入 了 解 问题 和 可 能 的 实现 方案 , 一 个 重要 的 技巧 是 编写 程序 的 简化 版 本 ， 





以 了 解 它 是 如 何 工 作 的 。 使 用 Python 编写 原型 非常 容易 , 使 用 众多 其 他 语言 编写 一 个 原型 
所 需 的 时 间 足 以 让 你 用 Python 编写 多 个 原型 。 即 便 如 此 ,除非 万 不 得 已 ， 和 否则 不 要 推倒 重 
来 ， 因 为 重 构 通常 是 更 佳 的 解决 方案 。 

口 配置 : 通过 提取 程序 中 的 常量 ， 可 让 以 后 修改 程序 变 得 更 容易 。 通 过 将 这 些 常量 放 在 配 
置 文件 中 ， 让 用 户 能 够 配置 程序 ， 使 其 按 自己 希望 的 方式 行事 。 通 过 使 用 环境 变量 和 命 




















令 行 选项 ， 可 进一步 提高 程序 的 可 配置 | 















































ee 


生 。 











口 日 志 : 日 志 对 找 出 程序 存在 的 问题 或 监视 其 行为 大 有 神 益 。 你 可 自己 动手 使 用 print 请 句 
实现 简单 的 日 志 ， 但 最 安全 的 做 法 是 使 用 标准 库 中 的 模块 1ogging。 


预告 


























现在 该 真 刀 真 枪 地 开始 编程 了 。 接 下 来 你 将 创建 一 些 项 目 ， 共 包括 10 章 篇 幅 ， 其 中 每 章 的 结 











构 都 类 似 ， 包 括 如 下 几 节 。 

















@ 中 文 版 由 人 民 邮 电 出 版 社 
@) 也 可 在 Raymond 的 个 人 网 
@ 中 文 版 由 人 民 邮 电 出 版 社 
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， 图 
右上 找到 。 


D 问题 描述 : 概述 项 目的 主要 目标 ， 包 括 一 些 背 景 信息 。 
口 有 用 的 工具 : 描述 对 开发 项 目 可 能 有 所 帮助 的 模块 、 类 、 表 数 等 。 


< 








图 书 


主页 为 ituring.cn/book/211。 一 一 编者 注 














主页 分 别 为 ituring.cn/book/993 、ituring.cn/book/987 和 ituring.cn/book/926。 


一 一 编者 注 
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口 准备 工作 : 介绍 开始 编程 前 需要 做 的 所 有 准备 工作 ， 这 可 能 包括 安装 必要 的 框架 ， 
对 实现 进行 测试 。 

口 初次 实现 : 这 是 发 起 的 第 一 次 攻击 一 一 则 在 更 深入 地 了 解 问题 的 尝试 性 实现 。 

口 再 次 实现 : 完成 初次 实现 后 ， 你 可 能 对 问题 有 更 深入 的 认识 ， 让 你 能 够 创建 新 的 改进 
版 本 。 

口 进一步 探索 : 最 后 ， 我 将 提供 一 些 有 关 如 何 做 进一步 尝试 和 探索 的 指南 。 

我 们 先 来 看 第 一 个 项 目 一 一 创建 一 个 自动 添加 HTML 标 签 的 程序 。 


二 


便 





























项 目 1: 自动 洪 加 标签 








本 章 介绍 如 何 使 用 Python 杰出 的 文本 处 理 功能 , 包括 使 用 正则 表达 式 将 纯 文本 文件 转换 为 用 
HITML 或 XML 等 语言 标记 的 文件 。 如 果 不 熟悉 这 些 语 言 的 人 编写 了 一 些 文本 , 而 你 要 在 系统 中 使 
用 这 些 内 容 并 对 其 进行 标记 ， 就 必须 具备 这 些 技能 。 

你 不 能 熟练 地 使 用 XML? 不 用 为 此 担心 , 只 要 对 HTML 有 大 致 的 了 解 , 你 就 能 完成 本 章 的 任 
务 。 如 果 需 要 阅读 HTML 简 介 ， 网 上 的 相关 教程 数不胜数 。 有 关 XML 使 用 示例 ， 请 参阅 第 22 章 。 

下 面 先 来 实现 一 个 只 能 做 基本 处 理 的 简单 原型 , 再 对 这 个 程序 进行 扩展 , 让 标记 系统 更 灵活 。 












































20.1 问题 描述 


你 要 给 纯 文 本 文件 添加 格式 。 假设 你 要 将 一 个 文件 用 作 网 页 ,而 给 你 文件 的 人 嫌 麻 烦 , 没有 
以 HIML 格 式 编写 它 。 你 不 想 手 工 添 加 需要 的 所 有 标签 ， 想 编写 一 个 程序 来 自动 完成 这 项 工作 。 


























注意 事实 上 ,这 种 “ 纯 文 本 标记 ”在 最 近 几 年 已 非常 普遍 ， 主 要 原因 可 能 是 带 纯 文本 界面 的 
维基 百科 和 博客 软件 呈 爆 炸 式 增长 。 有 关 这 方面 的 详细 信息 ， 请 参阅 20.6 节 。 




















大 致 而 言 ,你 的 任务 是 对 各 种 文本 元 素 ( 如 标题 和 突出 的 文本 ) 进行 分 类 ， 再 清晰 地 标记 它 
们 。 就 这 里 的 问题 而 言 ， 你 将 给 文本 添加 HTML 标记 ， 得 到 可 作为 网 页 的 文档 ， 让 Web 浏 览 器 能 
够 显示 它 。 然 而 , 创建 基本 引擎 后 , 完全 可 以 添加 其 他 类 型 的 标记 ( 如 各 种 形式 的 XML 和 LATEX 
码 )。 对 文本 文件 进行 分 析 后 ， 你 甚至 可 以 执行 其 他 的 任务 ， 如 提取 所 有 的 标题 以 制作 目录 。 














汶 











注意 LATEX 是 一 种 用 于 创建 各 种 技术 文档 的 标记 系统 ， 基 于 TEX 排 版 程序 。 这 里 提 到 它 只 是 
想 说 明 所 要 创建 程序 的 其 他 用 途 。 要 深入 了 解 LATEX ， 可 访问 TEX 用 户 组 网 站 
( http:/www.tug.org )。 


你 拿 到 的 文本 可 能 包含 一 些 线索 ( 突出 的 文本 形 如 *like this* )， 但 要 让 程序 能 够 猜测 出 文档 
的 结构 ， 可 能 需要 一 些 技巧 。 

着 手 编写 原型 前 ， 先 来 定义 一 些 目标 。 

口 输入 无 需 包 含 人 工 编码 或 标签 。 
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口 程序 需要 能 够 处 理 不 同 的 文本 块 ( 如 标题 、 段 落 和 列表 项 ) 以 及 内 山 文 本 ( 如 突出 的 文 

本 和 URL )。 

口 虽然 这 个 实现 添加 的 是 HTML 标 签 ， 但 应 该 很 容易 对 其 进行 扩展 ， 以 支持 其 他 标记 语言 。 
在 程序 的 第 一 个 版 本 中 ， 可 能 无 法 实现 所 有 这 些 目 标 , 但 这 正 是 原型 的 意义 所 在 。 你 编写 原 

型 旨 在 找 出 最 初 的 想法 存在 的 缺陷 以 及 学 习 如 何 编写 程序 来 解决 面临 的 问题 。 











人 






































提示 “在 可 能 的 情况 下 ， 最 好 逐渐 修改 最 初 的 程序 ， 而 不 要 推倒 重 来 。 为 清晰 起 见 ， 我 将 提供 
两 个 完全 独立 的 程序 版 本 。 


20.2 ”有 用 的 工具 


想 想 编写 这 个 程序 需要 哪些 工具 。 

口 肯定 需要 读 写 文 件 (参见 第 11 章 )， 至 少 要 从 标准 输入 ( sys.stdin ) 读 取 以 及 使 用 print 
进行 输出 。 

口 可 能 需要 迭代 输入 行 ( 参见 第 11 章 ) 

口 需要 使 用 一 些 字符 串 方法 (参见 第 3 章 )。 

口 可 能 用 到 一 两 个 生成 器 〈 参 见 第 9 章 )。 

D 可 能 需要 模块 re ( 参见 第 10 章 )。 

口 如 果 你 不 熟悉 上 述 任何 概念 ， 请 花 点 时 间 复 习 一 下 。 


20.3 准备 工作 


开始 编码 前 ， 还 需要 有 评估 进度 的 途径 ， 为 此 需要 一 个 测试 套件 。 就 这 个 项 目 而 言 ， 一 个 测 
试 就 足够 了 : 一 个 〈 纯 文本 ) 测试 文档 。 代 码 清 单 20-1 是 你 要 对 其 进行 自动 标记 的 示例 文本 。 


代码 清单 20-1 一 个 纯 文本 文档 ( test_input.txt ) 


Welcome to World Wide Spam, Inc. 
































These are the corporate web pages of *World Wide Spam*, Inc. We hope 
you find your stay enjoyable, and that you will sample many of our 
products. 


A short history of the company 


World Wide Spam was started in the summer of 2000. The business 
concept was to ride the dot-com wave and to make money both through 
bulk email and by selling canned meat online. 


After receiving several complaints from customers Who weren't 
satisfied by their bulk email, World Wide Spam altered their profile, 
and focused 100% on canned goods. Today, they rank as the world's 
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13,892nd online supplier of SPAM. 
Destinations 


From this page you may visit several of our interesting web pages: 


hat is SPAM? (http://wwspam.fu/whatisspam) 


How do they make it? (http://wwspam.fu/howtomakeit) 
- Why should I eat it? (http://wwspam.fu/whyeatit) 


How to get in touch with us 





You can get in touch with us in *many* ways: By phone (555-1234), by 
email (wwspam@wwspam.fu) or by visiting our customer feedback page 
(http://wwspam. fu/feedback). 


要 对 实现 进行 测试 ， 只 需 将 这 个 文档 作为 输入 ,并 在 Web 浏 览 顺 中 查看 结果 ( 或 直接 检查 添 
加 的 标签 ) 即 可 。 














注意 ” 相 比 于 人 工 检 查 结果 , 使 用 自动 测试 套件 通常 是 更 佳 的 选择 。( 你 能 想 出 让 测试 自动 化 的 
方法 吗 ? ) 


20.4 初次 实现 


首先 要 做 的 事情 之 一 是 将 文本 分 成 段落 。 从 代码 清单 20-1 可 知 , 段落 之 间 有 一 个 或 多 个 空 行 
比 段 落 更 准确 的 说 法 是 块 (block )， 因 为 块 也 可 以 指标 题 和 列表 项 。 


20.4.1 找 出 文本 块 


要 找 出 这 些 文本 块 , 一 种 简单 的 方法 是 ,收集 空 行 前 的 所 有 行 并 将 它们 返回 ,然后 重复 这 样 
的 操作 。 不 需要 收集 空 行 ， 因 此 不 需要 返回 空 文本 块 ( 即 多 个 空 行 )。 另 外 ， 必 须 确保 文件 的 最 
后 一 行为 空 行 ， 否 则 无 法 确定 最 后 一 个 文本 块 到 哪里 结束 。( 当然 ， 有 其 他 确定 这 一 点 的 方法 。) 
代码 清单 20-2 演 示 了 这 种 方法 的 一 种 实现 。 


代码 清单 20-2 一 个 文本 块 生成 磊 (util.py ) 


def lines(file): 
for line in file: yield line 
yield '\n' 

















def blocks(file): 
block = [] 
for line in lines(file): 
if line.strip(): 
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block.append(line) 


elif block: 
yield ''.join(block).strip() 
block = [] 


生成 器 lines 是 个 简单 的 工具 ， 在 文件 未 尾 添加 一 个 空 行 。 生 成 器 plocks 实 现 了 刚才 描述 的 
方法 。 生 成 文本 块 时 ， 将 其 包含 的 所 有 行 合 并 ， 并 将 两 端 多 余 的 空白 〈 如 列表 项 缩 进 和 换行 符 ) 
删除 ， 得 到 一 个 表示 文本 块 的 字符 串 。( 如 果 不 喜 欢 这 种 找 出 段落 的 方法 ， 你 肯定 能 够 设计 出 其 
他 方法 。 请 看 看 你 最 终 能 设计 出 多 少 种 方法 ， 这 可 能 很 有 趣 。) 我 将 这 些 代 码 存储 在 文件 util.py 
中 ， 这 意味 着 你 稍 后 可 在 程序 中 导 和 人 这 些 生 成 器 。 








20.4.2 ”添加 一 些 标记 


使 用 代码 清单 20-2 提 供 的 基本 功能 , 可 创建 简单 的 标记 脚本 。 为 此 , 可 按 如 下 基本 步骤 进行 。 

(1) 打印 一 些 起 始 标记 。 

(2) 对 于 每 个 文本 块 ， 在 段落 标签 内 打印 它 。 

(3) 打印 一 些 结束 标记 。 

这 不 太 难 , 但 用 处 也 不 大 。 这 里 假设 要 将 第 一 个 文本 块 放 在 一 级 标题 标签 (hl ) 内 ， 而 不 是 段 
落 标签 内 。 另 外 ,还 需 将 用 星 号 括 起 的 文本 改 成 突出 文本 (使 用 标签 em )。 这 样 程序 将 更 有 用 一 些 。 
由 于 已 经 编写 好 了 函数 blocks， 使 用 re.sub 实 现 这 些 需求 的 代码 非常 简单 ， 如 代码 清单 20-3 所 示 。 


代码 清单 20-3 一 个 简单 的 标记 程序 (simple markup.py ) 


import sys, re 
from util import * 









































print('<html><head><title>...</title><body>') 


title = True 
for block in blocks(sys.stdin): 
block = re.sub(r'\*(.+?)\*', r'<em>\1</em>', block) 
if title: 
print('<h1>') 
print(block 
print('</h1>') 
title = False 


print('<p>" 
print(block 
print('</p>') 














print('</body></html>') 

要 执行 这 个 程序 ， 并 将 前 面 的 示例 文件 作为 输入 ， 可 像 下 面 这 样 做 : 

$ python simple markup.py < test input.txt > test output.html 

这 样 ， 文 件 test_output.html 将 包含 生成 的 HTML 人 代码。 图 20-1 是 在 Web 浏 览 器 中 显示 这 些 
HTML 代 码 的 结果 。 
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Welcome to World Wide Spam, Inc. 


These are the corporate web pages of Worid Wide Spam, Inc. We hope you find your stay 
enjoyable, and that you wil sample many of our products. 


A short history of the company 


World Wide Spam was started in the summer of 2000. The business concept was to ride the 
dot-com wave and to make money both through bulk email and by selling canned meat online. 


After receiving several complaints from customers who weren't satisfied by their bulk email, World 


‖ Wide Spam altered their profile, and focused 100% on canned goods. Today, they rank as the 
world's 13,892nd online supplier of SPAM 


From this page you may visit several of our interesting web pages: 


a 




















图 20-1 初次 尝试 生成 的 网 页 


这 个 原型 虽然 不 是 很 出 色 , 但 确实 执行 了 一 些 重要 任务 。 它 将 文本 分 成 可 独立 处 理 的 文本 块 ， 
再 依次 对 每 个 文本 块 应 用 一 个 过 滤器 〈 这 个 过 滤器 是 通过 调用 re.sub 实 现 的 )。 这 种 方法 看 起 来 








不 错 ， 可 在 最 终 的 程序 中 使 用 。 





如 果 要 扩展 这 个 原型 ， 该 如 何 办 呢 ? 可 在 for 循 环 中 添加 检查 ， 以 确定 文本 块 是 否 是 标题 、 
列表 项 等 。 为 此 ， 需 要 添加 其 他 的 正则 表达 式 ， 代 码 可 能 很 快 变 得 很 乱 。 更 重要 的 是 ， 要 让 程序 
输出 其 他 格式 的 代码 ( 而 不 是 HTML ) 很 难 , 但 是 这 个 项 目的 目标 之 一 就 是 能 够 轻松 地 添加 其 他 
输出 格式 。 这 里 假设 你 要 重 构 这 个 程序 ， 以 采用 稍微 不 同 的 结构 。 
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你 从 初次 实现 中 学 到 了 什么 呢 ? 为 了 提高 可 扩展 性 , 需 提 高 程序 的 模块 化 程度 ( 将 功能 放 在 
独立 的 组 件 中 )。 要 提高 模块 化 程度 ， 方 法 之 一 是 采用 面向 对 象 设计 ( 参见 第 7 章 )。 你 需要 找 出 


一 些 抽 象 ， 让 程序 在 变 得 复杂 时 





口 规则 : 对 于 每 种 文本 块 ， 
并 相应 地 设置 其 格式 。 














出 易于 管理 。 下 面 完 来 列 出 一 些 潜 在 的 组 件 。 


口 解析 器 : 添加 一 个 读 取 文 本 并 管理 其 他 类 的 对 象 。 


都 制定 一 条 相应 的 规则 。 这 些 规则 能 够 检测 不 同类 型 的 文本 块 


口 过 滤器 : 使 用 正则 表达 式 来 处 理 内 齿 元 素 。 
口 处 理 程序 : 供 解析 器 用 来 生成 输出 。 每 个 处 理 程序 都 生成 不 同 的 标记 。 











这 里 的 设计 虽然 不 太 详 尽 , 但 至 少 让 你 知道 应 如 何 将 代码 分 成 不 同 的 部 分 , 并 让 每 部 分 都 易 





于 管理 。 
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20.5.1 ”处 理 程 序 


先 来 看 处 理 程序 。 处 理 程序 负责 生成 带 标记 的 文本 ， 并 从 解析 器 那里 接受 详细 指令 。 假 设 对 
于 每 种 文本 块 ， 它 都 提供 两 个 处 理 方法 : 一 个 用 于 添加 起 始 标签 ， 另 一 个 用 于 添加 结束 标签 。 例 
如 , 它 可 能 包含 用 于 处 理 段 落 的 方法 start_paragraph 和 end_paragraph。 生成 HTML 代 码 时 , 可 像 
下 面 这 样 实现 这 些 方法 : 
class HIMLRenderer: 
def start paragraph(self): 
print('<p>') 
def end paragraph(self): 
print('</p>') 
当然 ， 对 于 其 他 类 型 的 文本 块 ， 需 要 提供 类 似 的 处 理 方法 。( HTMLRenderer 类 的 完整 代码 见 
稍 后 的 代码 清单 20-4。) 这 好 像 足够 灵活 了 : 要 添加 其 他 类 型 的 标记 ， 只 需 再 创建 相应 的 处 理 程 
序 (或 泻 染 程序 )， 并 在 其 中 包含 添加 相应 起 始 标签 和 结束 标签 的 方法 。 

















注意 ”这 里 之 所 以 使 用 术语 处 理 程序 ( 而 不 是 泻 染 程序 等 )， 旨 在 指出 它 负责 处 理解 析 器 生成 的 
方法 调用 (参见 20.5.2 节 )， 而 不 必 像 HTMLRenderer 那 样 使 用 标记 语言 来 泻 染 文 本 。XML 
解析 方案 SAX 也 使 用 了 类 似 的 处 理 程序 机 制 ， 这 将 在 第 22 章 介绍 。 


如 何 处 理 正则 表达 式 呢 ?” 你 可 能 还 记得 ,函数 re.sub 可 通过 第 二 个 参数 接受 一 个 函数 ( 蔡 换 
函数 )。 这 样 将 对 匹配 的 对 象 调用 这 个 函数 ， 并 将 其 返回 值 插 入 文本 中 。 这 与 前 面 讨论 的 处 理 程 
序 理念 很 匹配 一 一 你 只 需 让 处 理 程序 实现 替换 函数 即 可 。 例 如 , 可 像 下 面 这 样 处 理 要 突出 的 内 容 : 


def sub emphasis(self, match): 
return '<em>{}</em>'.format(match.group(1)) 


如 果 你 不 知道 方法 group 是 做 什么 的 ， 应 复习 一 下 第 10 章 介绍 的 模块 re。 
除 start、end 和 sub 方 法 外 ,还 有 一 个 名 为 feed 的 方法 ， 用 于 向 处 理 程序 提供 实际 文本 。 在 简 
单 的 HTML 泻 染 程序 中 ， 只 需 像 下 面 这 样 实现 这 个 方法 : 


def feed(self, data): 
print(data) 


























20.5.2 ”处 理 程序 的 超 类 


为 提高 灵活 性 ， 我 们 来 添加 一 个 Handler 类 ， 它 将 是 所 有 处 理 程序 的 超 类 ， 负 责 处 理 一 些 管 
理性 细节 。 在 有 些 情 况 下 ， 不 通过 全 名 调用 方法 ( 如 start_paragraph )， 而 是 使 用 字符 串 表 示 文 
本 块 的 类 型 ( 如 'paragraph' ) 并 将 这 样 的 字符 串 提 供给 处 理 程序 将 很 有 用 。 为 此 ， 可 添加 一 些 
通用 方法 ， 如 start(type) 、end(type) 和 sub(type)。 另 外 ， 还 可 让 通用 方法 start 、end 和 sub 检 查 
是 否 实现 了 相应 的 方法 (例如 ，start('paragraph') 检 查 是 否 实现 了 start_paragraph )。 如 果 没 有 
实现 ， 就 什么 都 不 做 。 这 个 Handler 类 的 实现 如 下 (摘自 代码 清单 20-4 所 示 的 模块 handlers ): 
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class Handler: 
def callback(self, prefix, name, *args): 
method = getattr(self, prefix + name, None) 
if callable(method): return method(*args) 
def start(self, name): 
self.callback('start ', name) 
def end(self, name): 
self.callback('end ', name) 
def sub(self, name): 
def substitution(match): 
result = self.callback('sub ', name, match) 
if result is None: match.group(0) 
return result 
return substitution 


对 于 这 些 代码 ， 有 几 点 需要 说 明 。 20 
口 方法 callback 负 责 根据 指定 的 前 级 (如 'start ' ) 和 名 称 (如 'paragraph' ) 查找 相应 的 方 

法 。 这 是 通过 使 用 getattr 并 将 默认 值 设置 为 None 实 现 的。 如 果 getattr 返 回 的 对 象 是 可 调 

用 的 ,就 使 用 额外 提供 的 参数 调用 它 , 例 如 ,调用 handler.callback('start ', 'paragraph') 

时 ,将 调用 方法 handler.start_paragraph 且 不 提供 任何 参数 一 一 如 果 start_paragraph 存 

在 的 话 。 
口 方法 start 和 end 都 是 辅助 方法 ， 它 们 分 别 使 用 前 缀 start_ 和 end 调用 callback。 
口 方法 sub 稍 有 不 同 。 它 不 直接 调用 callback， 而 是 返回 一 个 函数 ， 这 个 函数 将 作为 替换 函 

数 传递 给 re.sub (这 就 是 它 只 接受 一 个 匹配 对 象 作为 参数 的 原因 所 在 )。 

下 面 来 看 一 个 示例 。 假设 HTMLRenderer 是 Handler 的 子 类 , 并 像 前 一 节 介 绍 的 那样 实现 了 方法 

sub_emphasis ( 有关 handlers.py 的 实际 代码 ,请 参阅 代码 清单 20-4 )。 现 在 假设 变量 handler 存 储 着 
一 个 HTMLRenderer 实 例 。 


>>> from handlers import HTMLRenderer 
>>> handler = HTMLRenderer() 


在 这 种 情况 下 ， 调 用 handler.sub('emphasis') 的 结果 将 如 何 呢 ? 


>>> handler.sub('emphasis ') 
<function substitution at Ox168cf8> 


将 返回 一 个 函数 (substitution )。 如 果 你 调用 这 个 函数 ， 它 将 调用 方法 handler.sub_ 
emphasis。 这 意味 着 可 在 re.sub 语 句 中 使 用 这 个 也 数 : 


>>> import re 
>>> re.sub(r'\*(.+?)\*', handler.sub('emphasis'), 'This *is* a test') 
'This <em>is</em> a test' 


太 神 奇 了 ! (这 里 的 正则 表达 式 与 用 星 号 括 起 的 文本 匹配 ,将 在 稍 后 讨论 。) 但 为 何 要 这 么 绕 
呢 ? 为 何不 像 初 次 实现 中 那样 使 用 fr' <em>\1c/em> ' 呢 ? 因为 如 果 这 样 做 ， 就 只 能 添加 em 标签 ， 但 
你 希望 处 理 程 序 能 够 根据 情况 添加 不 同 的 标签 。 例 如 , 如 果 处 理 程序 为 ( 虚构 的 )LaTeXRenderer， 
应 生成 完全 不 同 的 结 
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>> re.sub(r'\*(.+?)\*', handler.sub('emphasis'), 'This *is* a test') 

'This \\emph{is} a test' 

代码 还 是 原来 的 代码 ， 但 添加 的 标签 不 同 了 。 

我 们 还 提供 了 备用 方案 ， 以 应 对 没有 实现 替换 函数 的 情形 。 方 法 callback 查 找 方法 
sub_something， 但 如 果 没 有 找到 ， 就 返回 None。 由 于 要 返回 一 个 用 于 re.sub 中 的 替换 函数 ， 因 此 
你 不 想 返 回 None。 相反 , 如 果 没 有 找到 替换 函数 , 就 原样 返回 匹配 对 象 。 换 而 言 之 , 如 果 callback 
返回 None， 在 sub 中 定义 的 substitution 将 返回 匹配 的 文本 ， 即 match.group(0)。 

















20.5.3 ”规则 


至 此 ， 处 理 程序 的 可 扩展 性 和 灵活 性 都 非常 高 了 ， 该 将 注意 力 转向 解析 ( 对 文本 进行 解读 ) 
了 。 为 此 , 我 们 将 规则 定义 为 独立 的 对 象 ， 而 不 像 初 次 实现 中 那样 使 用 一 条 包含 各 种 条 件 和 操作 
的 大 型 if 语 句 。 

规则 是 供 主 程序 ( 解析 器 ) 使 用 的 。 主 程序 必须 根据 给 定 的 文本 块 选 择 合适 的 规则 来 对 其 进 
行 必 要 的 转换 。 换 而 言 之 ， 规 则 必须 具备 如 下 功能 。 
口 知道 自己 适用 于 那 种 文本 块 ( 条 件 )。 
口 对 文本 块 进行 转换 ( 操作 )。 

因此 每 个 规则 对 象 都 必须 包含 两 个 方法 : condition 和 action。 

方法 condition 只 需要 一 个 参数 : 待 处 理 的 文本 块 。 它 返回 一 个 布尔 值 ， 指 出 当前 规则 是 否 
适用 于 处 理 指定 的 文本 块 。 






































提示 “要 实现 复杂 的 解析 规则 ， 可 能 需要 让 规则 对 象 能 够 访问 一 些 状 态 变 量 ， 从 而 让 它 知道 之 
前 发 生 的 情况 或 已 应 用 了 哪些 规则 。 


方法 action 也 将 当前 文本 块 作为 参数 ， 但 为 了 影响 输出 ， 它 还 必须 能 够 访问 处 理 器 对 象 。 

在 很 多 情况 下 ,适用 的 规则 可 能 只 有 一 个 。 换 而 言 之 , 发 现 使 用 了 标题 规则 ( 这 表明 当前 文 
本 块 为 标题 ) 后 ， 就 不 应 再 试图 使 用 段落 规划。 为 实现 这 一 点 , 一 种 简单 的 方法 是 让 解析 器 依次 
尝试 每 个 规则 ， 并 在 触发 一 个 规则 后 不 再 接着 尝试 。 这样 做 通常 很 好 , 但 在 有 些 情况 下 ， 应 用 一 
个 规则 后 还 可 应 用 其 他 规则 。 有 鉴于 此 ， 需 要 给 方法 action 再 添加 一 项 功能 : 让 它 返 回 一 个 布尔 
值 ， 指 出 是 否 就 此 结束 对 当前 文本 块 的 处 理 。( 也 可 使 用 异常 来 实现 这 项 功能 ， 这 种 异常 类 似 于 
迭代 器 的 StopIteration 机 制 。) 

标题 规则 的 伪 代 码 可 能 类 似 于 : 


class HeadlineRule: 

def condition(self, block): 
如 果 文 本 块 符合 标题 的 定义 ， 就 返回 True; 
否则 返回 False。 

def action(self, block, handler): 
调用 诸如 handler.start('headline')、handler.feed(block) 
和 handler.end('headline' ) 等 方法 。 
我 们 不 想 尝试 其 他 规则 ， 因 此 返回 True， 以 结束 对 当前 文本 块 的 处 理 。 
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20.5.4 规则 的 超 类 


虽然 并 非 一 定 要 提供 规则 超 类 ， 但 多 个 规则 可 能 执行 相同 的 操作 : 调用 人 处理 程序 的 方法 
start、feed 和 和 end, 并 将 相应 的 类 型 字符 串 作 为 参数 , 再 返回 True ( 以 结束 对 当前 文本 块 的 处 理 )。 
假设 所 有 的 规则 子 类 都 有 一 个 type 属 性 ， 其 中 包含 类 型 字符 串 ， 则 可 像 下 面 这 样 实现 规则 超 类 。 
(CRule 类 包含 在 模块 zules 中 ， 这 个 模块 的 完整 代码 见 代 码 清单 20-5$。) 


class Rule: 
def action(self, block, handler): 
handler.start(self.type) 
handler.feed(block) 
handler.end(self.type) 
return True 


方法 condition 由 各 个 子 类 负责 实现 。Rule 类 及 其 子 类 都 放 在 模块 rules 中 。 20 





























orl 








20.5.5 ”过 滤器 


你 无 需 实现 独立 的 过 滤器 类 。 由 于 Handler 类 包含 方法 sub， 每 个 过 滤器 都 可 用 一 个 正则 表达 
式 和 一 个 名 称 ( 如 emphasis 或 url ) 来 表示 。 下 一 方 介绍 如 何 处 理解 析 器 时 ， 你 将 看 到 这 是 如 何 
20.5.6 ”解析 器 

现在 来 讨论 应 用 程序 的 核心 部 分 : Parser 类 。 它 使 用 一 个 处 理 程序 以 及 一 系列 规则 和 过 滤器 
将 纯 文 本 文件 转换 为 带 标记 的 文件 ( 这 里 是 HTML 文 件 )。 这 个 类 需要 包含 哪些 方法 呢 ? 完成 准 
备 工作 的 构造 函数 、 添 加 规则 的 方法 、 添 加 过 渡 右 的 方法 以 及 对 文件 进行 解析 的 方法 。 

下 面 是 Parser 类 的 代码 (摘自 代码 清单 20-6， 这 个 代码 清单 详细 列 出 了 markup.py 的 代码 ): 


class Parser: 
Win 


























读 取 文本 文件 、 应 用 规则 并 控制 处 理 程 序 的 解析 器 


def init (self, handler): 
self.handler = handler 
self.rules = [] 
self.filters = [] 
def addRule(self, rule): 
self.rules.append(rule) 
def addFilter(self, pattern, name): 
def filter(block, handler): 
return re.sub(pattern, handler.sub(name), block) 
self.filters.append(filter) 
def parse(self, file): 
self.handler.start('document') 
for block in blocks(file): 
for filter in self.filters: 
block = filter(block, self.handler) 
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for rule in self.rules: 
if rule.condition(block): 
last = rule.action(block, self.handler) 
if last: break 
self.handler.end('document') 


虽然 这 个 类 中 需要 理解 的 内 容 有 很 多 , 但 大 都 不 太 复 杂 。 构造 函数 将 提供 的 处 理 程序 赋 给 一 
个 实例 变量 (属性 )， 再 初始 化 两 个 列表 : 一 个 规则 列表 和 一 个 过 滤器 列表 。 方 法 addRule 在 规则 
列表 中 添加 一 个 规则 。 人 然而， 方法 addFilter 所 做 的 工作 更 多 : 与 方法 addRule 类 似 ， 它 在 过 滤器 
列表 中 添加 一 个 过 滤器 ,但 在 此 之 前 还 要 先 创建 过 滤器 。 过 滤器 就 是 一 个 函数 ， 它 调用 re.sub 并 
将 参数 指定 为 合适 的 正则 表达 式 〈 模式 ) 和 处 理 程序 中 的 替换 函数 (handler.sub(name) )。 

方法 parse 虽 然 看 起 来 有 点 复杂 ， 但 可 能 是 最 容易 实现 的 ， 因 为 它 只 是 完成 一 直 计 划 要 完成 
的 任务 。 它 以 调用 处 理 程 序 的 方法 start('document' 开头 ， 并 以 调用 处 理 程序 的 方法 
end('document ' ) 结 束 。 在 这 两 个 调用 之 间 ， 它 迭代 文本 文件 中 的 所 有 文本 块 。 对 于 每 个 文本 块 ， 
它 都 应 用 过 滤器 和 规则 。 应 用 过 滤器 就 是 调用 函数 filter， 并 以 文本 块 和 处 理 程序 作为 参数 ， 再 
将 结果 赋 给 变量 block， 如 下 所 示 : 

block = filter(block, self.handler) 

这 能 让 每 个 过 滤器 都 完成 其 任务 ， 即 将 部 分 文本 替换 为 带 标记 的 文本 (如 将 *this* 替 换 为 
<em>this</em> )。 

遍历 规则 时 涉及 的 逻辑 要 多 些 。 对 于 每 个 规则 , 都 使 用 一 条 if 语句 来 检查 它 是 否 适 用 一 一 这 
是 通过 调用 rule.condition(block) 实 现 的 。 如 果 规 则 适用 ， 就 调用 rule.action ， 并 将 文本 块 和 
处 理 程序 作为 参数 。 前 面 说 过 ,方法 action 返 回 一 个 布尔 值 ， 指 出 是 否 就 此 结束 对 当前 文本 块 的 
处 理 。 为 结束 对 文本 块 的 处 理 ， 将 方法 action 的 返回 值 赋 给 变量 last， 再 在 这 个 变量 为 True 时 退 
出 for 循 环 。 


if last: break 




































































注意 可 将 这 两 条 语句 压缩 成 一 条 ， 以 避免 使 用 变量 1ast。 
if rule.action(block, self.handler): break 
是 否 这 样 做 在 很 大 程度 上 取决 于 你 的 偏好 。 避 免 使 用 临时 变量 可 让 代码 更 简单 ， 但 使 用 
临时 变量 可 清晰 地 标识 返回 值 。 


20.5.7 ”创建 规则 和 过 滤器 


至 此 , 万 事 俱 备 ， 只 从 东风 一 一 还 没有 创建 具体 的 规则 和 过 滤器 。 到 目前 为 止 你 编写 的 大 部 
分 代码 都 旨 在 让 规则 和 过 滤器 与 处 理 程 序 一 样 灵活 。 你 可 编写 多 个 独立 的 规则 和 过 滤器 , 再 使 用 
方法 addRule 和 addFilter 将 它们 添加 到 解析 器 中 ， 同 时 确保 在 处 理 程序 中 实现 了 相应 的 方法 。 

通过 使 用 一 组 复杂 的 规则 ,可 处 理 复 杂 的 文档 ,但 我 们 将 保持 尽 可 能 简单 。 只 创建 分 别 用 于 
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处 理 题目 、 其 他 标题 和 列表 项 的 规则 。 应 将 相连 的 列表 项 视 为 一 个 列表 ,因此 还 将 创建 一 个 处 理 
整个 列表 的 列表 规则 。 最 后 ， 可 创建 一 个 默认 规则 ,用 于 处 理 段 落 ， 即 其 他 规则 未 处 理 的 所 有 文 
本 块 。 

下 面 以 不 太 正 式 的 方式 定义 了 这 些 规则 。 
口 标题 是 只 包含 一 行 的 文本 块 ， 长 度 最 多 为 70 个 字符 。 以 冒号 结束 的 文本 块 不 属于 标题 。 
口 题目 是 文档 中 的 第 一 个 文本 块 ， 前 提 条 件 是 它 属 于 标题 。 
口 列表 项 是 以 连 字 符 ( - ) 打头 的 文本 块 。 
口 列表 以 紧 跟 在 非 列表 项 文本 块 后 面 的 列表 项 开头 ， 以 后 面 紧 跟着 非 列 表 项 文本 块 的 列表 

项 结束 。 

这 些 规则 是 根据 我 对 文本 文档 结构 的 直觉 制定 的 , 你 对 文本 文档 结构 的 看 法 可 能 不 同 。 另 外 ， 
这 些 规则 存在 一 些 缺 陷 。 例如， 如 果 文 档 以 列表 项 结尾 怎么 办 ?你 完全 可 以 改进 这 些 规则 。 定 义 
这 些 规 则 的 完整 源 代码 见 后 面 的 代码 清单 20-5 ( rules.py， 这 个 文件 还 包含 Rule 类 )。 首 先 来 定义 
标题 规则 : 

class HeadingRule(Rule): 












































标题 只 包含 一 行 ， 不 超过 70 个 字符 且 不 以 冒号 结尾 


type = 'heading’' 
def condition(self, block): 
return not '\n' in block and len(block) <= 70 and not block[-1] == ":" 


这 里 将 属性 type 设 置 成 了 字符 串 'heading' ， 这 个 属性 是 供 从 Rule 类 继承 而 来 的 方法 action 
使 用 的 。 方法 condition 核 实 文本 块 不 包含 换行 符 (\n )、 长 度 不 超过 70 且 最 后 一 个 字符 不 是 冒号 。 

题目 规则 与 此 类 似 , 但 只 使 用 一 次 一 一 用 于 处 理 第 一 个 文本 块 。 从 此 以 后 , 它 将 忽略 所 有 的 
文本 块 ， 因 为 其 first 属 性 已 设置 为 False。 

class TitleRule(HeadingRule): 




















题目 是 文档 中 的 第 一 个 文本 块 ， 前 提 条 件 是 它 属于 标题 


type = 'title’ 
first = True 


def condition(self, block): 
if not self.first: return False 
self.first = False 
return HeadingRule.condition(self, block) 


列表 项 规则 的 方法 condition 是 根据 前 面 的 定义 直接 实现 的 。 


class ListItemRule(Rule): 




















列表 项 是 以 连 字符 打头 的 段落 。 存 设置 格式 的 过 程 中 ， 将 把 连 字 符 删除 


type = 'listitem' 
def condition(self, block): 
return block[0] == '-" 
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def action(self, block, handler): 
handler.start(self.type) 
handler.feed(block[1:].strip()) 
handler.end(self.type) 
return True 


它 重新 实现 了 方法 action。 相 比 于 Rule 的 方法 action， 这 个 方法 唯一 的 不 同 之 处 在 于 ， 它 市 
除了 文本 块 中 的 第 一 个 字符 ( 连 字符 )， 并 删除 了 余下 文本 中 多 余 的 空白 。 标 记 会 生成 列表 项 目 
符号 ， 因 此 不 再 需要 连 字符 。 

到 目前 为 止 ， 所 有 规则 的 action 方 法 都 返回 True。 列 表 规 则 的 action 方 法 不 能 这 样 ， 因 为 它 
在 遇 到 非 列 表 项 后 面 的 列表 项 或 列表 项 后 面 的 非 列 表 项 时 触发 。 由 于 它 不 实际 标记 这 些 文本 块 ， 
而 只 是 标记 列表 (一 组 列表 项 ) 的 开始 和 结束 位 置 ， 因 此 你 不 希望 对 文本 块 的 处 理 到 此 结束 ， 从 
而 要 让 它 返 回 False。 


class ListRule(ListItemRule): 























列表 以 紧 跟 在 非 列 表 项 文本 块 后 面 的 
列表 项 开头 ， 以 相连 的 最 后 一 个 列表 
项 结束 


type = "list" 
inside = False 
def condition(self, block): 
return True 
def action(self, block, handler): 
if not self.inside and ListItemRule.condition(self, block): 
handler.start(self.type) 
self.inside = True 
elif self.inside and not ListItemRule.condition(self, block): 
handler.end(self.type) 
self.inside = False 
return False 


对 于 这 个 列表 规则 ， 可 能 需要 做 进一步 的 解释 。 它 的 方法 condition 总 是 返回 True， 因 为 你 
要 检查 所 有 的 文本 块 。 在 方法 action 中 ， 需 要 处 理 两 种 不 同 的 情况 。 

如 果 属 性 inside (指出 当前 是 否 位 于 列表 内 ) 为 False (初始 值 )， 且 列表 项 规则 的 方法 
condition 返 回 True， 就 说 明 刚 进入 列表 中 。 因 此 调用 处 理 程序 的 start 方 法 ， 并 将 属性 inside 设 
置 为 True。 

相反 ， 如 果 属 性 inside 为 True， 且 列表 项 规则 的 方法 condition 返 回 False， 就 说 明 刚 离开 列 
表 。 因 此 调用 处理 程序 的 end 方 法 ， 并 将 属性 inside 设 置 为 False。 

完成 这 些 处 理 后 ， 这 个 方法 返回 False， 以 继续 根据 其 他 规则 对 文本 块 进行 处 理 。( 当然 ， 这 
意味 着 规则 的 排列 顺序 至 关 重 要 。) 

最 后 一 个 规则 是 ParagraphRule， 其 方法 condition 总 是 返回 True， 因 为 这 是 默认 使 用 的 规则 。 
这 个 规则 是 加 入 规则 列表 中 的 最 后 一 个 元 素 ， 对 其 他 规则 未 处 理 的 所 有 文本 块 进行 处 理 。 


class ParagraphRule(Rule): 




































































20.5 再 次 实现 327 





段落 是 不 符合 其 他 规则 的 文本 块 


type = “paragraph 
def condition(self, block): 
return True 


过 滤 带 就 是 正则 表达 式 。 我 们 来 添加 三 个 过 滤 絮 ,分别 用 来 找 出 要 突出 的 内 容 、URL 和 Email 
地 址 。 为 此 ， 我们 使 用 下 面 三 个 正则 表达 式 : 


I (7) 
r'(http://[\.a-zA-2/1+)" 
r'([\.a-zA-Z]+@[\.a-zA-Z]+[a-zA-Z]+)" 


第 一 个 模式 找 出 要 突出 的 内 容 , 它 与 用 两 个 星 号 括 起 的 内 容 匹配 ( 它 要 匹配 尽 可 能 少 的 内 容 ， 
因此 使 用 了 问号 )。 第 二 个 模式 找 出 URL， 它 与 这 样 的 内 容 匹配 : 字符 串 'http://'( 你 可 在 这 里 
添加 其 他 协议 ) 后 跟 一 个 或 多 个 句点 、 字 母 或 斜 村 。( 这 个 模式 并 不 能 与 所 有 合法 的 URL 匹 配 ， 

你 可 对 其 进行 改进 。) 最 后 ，Email 模 式 与 这 样 的 内 容 匹配 : 中间 为 6@，@ 前 面 为 字母 和 句点 组 成 的 
序列 ，@ 后 面 也 是 字母 和 句点 组 成 的 序列 ， 最 后 为 字母 组 成 的 序列 ， 从 而 不 与 以 句点 结束 的 内 容 
匹配 。( 同样 ， 你 可 对 这 个 模式 进行 改进 。) 


20.5.8 整合 起 来 


现在 ， 只 需 创 建 一 个 Parser 对 象 ， 并 添加 相关 的 规则 和 过 滤器 。 下 面 就 来 这 样 做 : 创建 一 个 
在 构造 函数 中 完成 初始 化 的 Parser 子 类 ， 再 使 用 它 来 解析 sys.stdin。 

最 终 的 程序 如 代码 清单 20-4~ 代 码 清单 20-6 所 示 ( 这 些 代码 清单 依赖 于 代码 清单 20-2 所 示 的 工 
具 代 码 )。 可 以 像 运 行 原型 那样 运行 最 终 的 程序 。 

$ python markup.py < test input.txt > test output.html 



























































代码 清单 20-4 ”处 理 程序 (handlers.py ) 


class Handler: 
对 Parser 发 起 的 方法 调用 进行 处 理 的 对 象 


Parser 将 对 每 个 文本 块 调用 方法 start() 和 end()， 并 将 合 迁 
的 文本 块 名 称 作 为 参数 。 方 法 Sub() 将 用 于 正则 表达 式 替 换 ， 
使 用 诸如 emphasis 等 名 称 调 用 时 ， 这 个 方法 将 返回 相应 的 
替换 函数 


def callback(self, prefix, name, *args): 

method = getattr(self, prefix + name, None) 
if callable(method): return method(*args) 
def start(self, name): 
self.callback('start ', name) 
def end(self, name): 
self.callback('end ', name) 
def sub(self, name): 
def substitution(match): 
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result = self.callback('sub ', name, match) 
if result is None: match.group(0) 
return result 

return substitution 


class HIMLRenderer(Handler): 


nn 


用 于 澄 染 HTML 的 具体 处 理 程序 


HTMLRenderer 的 方法 可 通过 超 类 Handler 的 方法 
start()、end() 和 sub() 来 访问 。 这 些 方法 实现 了 
HTML 文 档 使 用 的 基本 标记 





def start document(self) : 
print('<html><head><title>...</title></head><body>') 
def end document(self): 
print('</body></html>') 
def start paragraph(self): 


print('<p>') 
def end paragraph(self): 
print('</p>') 





def start heading(self): 
print('<h2>') 

def end heading(self): 
print('</h2>') 

def start list(self): 
print('<ul>') 

def end list(self): 


print('</ul>') 
def start listitem(self): 
print("<1i> ) 


def end listitem(self): 
print('</1i>') 
def start title(self): 











print('<h1>') 
def end title(self): 
print('</h1>') 


def sub emphasis(self, match): 

return '<em>{}</em>'.format(match.group(1)) 

def sub url(self, match): 

return '<a href="{}">{}</a>' .format(match.group(1), match.group(1)) 

def sub mail(self, match): 

return "<a href="mailto:{}">{}</a>'.format(match.group(1), match.group(1)) 
def feed(self, data): 

print(data) 














代码 清单 20-5 ”规则 (rules.py) 


class Rule: 


CD 


所 有 规则 的 基 类 
def action(self, block, handler): 
handler. start(self.type) 
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handler. feed(block) 
handler.end(self.type) 
return True 


class HeadingRule(Rule): 


标题 只 包含 一 行 ， 不 超过 70 个 字符 且 不 以 冒号 结尾 
type = “heading 
def condition(self, block): 
return not '\n' in block and len(block) <= 70 and not block[-1] == ":" 


class TitleRule(HeadingRule): 


题目 是 文档 中 的 第 一 个 文本 块 ， 前 提 条 件 是 它 属于 标题 





type = title 
first = True 


def condition(self, block): 
if not self.first: return False 
self.first = False 
return HeadingRule.condition(self, block) 


class ListItemRule(Rule): 


列表 项 是 以 连 字符 打头 的 段落 。 在 设置 格式 的 过 程 中 ， 将 把 连 字符 删除 
type = “1istitem 
def condition(self, block): 
return block[0] == '-" 
def action(self, block, handler): 
handler.start(self.type) 
handler.feed(block[1:].strip()) 
handler.end(self.type) 
return True 








class ListRule(ListItemRule): 


列表 以 紧 跟 在 非 列表 项 文本 块 后 面 的 列表 项 打头 ,以 相连 的 最 后 一 个 列表 项 结 
type = 'list' 
inside = False 
def condition(self, block): 
return True 
def action(self, block, handler): 
if not self.inside and ListItemRule.condition(self, block): 
handler. start(self.type) 
self.inside = True 
elif self.inside and not ListItemRule.condition(self, block): 
handler.end(self.type) 
self.inside = False 
return False 











330 第 20 章 项 目 1: 自动 添加 标签 





class ParagraphRule(Rule): 


段落 是 不 符合 其 他 规则 的 文本 块 


CD 


type 


“paragTaph 


def condition(self, block): 
return True 


代码 清单 20-6 ” 主 程序 ( markup.py ) 


import sys, re 

from handlers import * 
from util import * 
from rules import * 


class Parser: 


nn 


Parser 读 取 文 本 文件 ， 应 用 规则 并 控制 处 理 程序 


mn 


def 


def 


def 














_ init (self, handler): 
self.handler = handler 
self.rules = [|] 
self.filters = [|] 
addRule(self, rule): 
self.rules.append(rule) 
addFilter(self, pattern, name): 
def filter(block, handler): 
return re.sub(pattern, handler.sub(name), block) 
self.filters.append(filter) 
def parse(self, file): 
self.handler.start('document') 
for block in blocks(file): 
for filter in self.filters: 
block = filter(block, self.handler) 


for rule in self.rules: 
if rule.condition(block): 
last = rule.action(block, 
self.handler) 
if last: break 








self.handler.end('document') 


class BasicTextParser(Parser): 


在 构造 函数 中 添加 规则 和 过 滤器 的 Parser 子 类 


nn 


def 


Se 


self 
sel 
self 
sel 


Sel] 1 





self. 


init (self, handler): 


parser. init (self, handler) 


f.addRule(ListRule()) 
f.addRule(ListItemRule()) 
f.addRule(TitleRule()) 
f.addRule(HeadingRule()) 
f.addRule(ParagraphRule()) 


f.addFilter(r'\*(.+?)\*', 'emphasis') 
addFilter(r' (http://[\.a-zA-2/]+)', ‘url') 
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self.addFilter(r'([\.a-zA-Z]+@[\.a-zA-Z]+[a-zA-Z]+)', 'mail') 
handler = HIMLRenderer() 
parser = BasicTextParser(handler) 


parser.parse(sys.stdin) 


将 前 面 的 示例 文本 作为 输入 时 ， 这 个 程序 的 运行 结果 如 图 20-2 所 示 。 
必 .… (K-Meleon) 已 回 国 
图 


Fle Edt View Go Bookmarks Favorites Help 














After receiving several complaints from customers who weren't satisfied by their bulk email, World 
Wide Spam altered their profile, and focused 100% on canned goods. Today, they rank as the 
world's 13,892nd online supplier of SPAM. 


Destinations 

From this page you may visit several of our interesting web pages: 
9 Whatis SPAM? (httpy/wwspam fu/whatisspam 
9 How do they make it? (http//wwspam fuhowtomakeit) 
e Why should I eat it? (http://wwspam fu/whyeatit) 

How to get in touch with us 


You can get in touch with us in many ways: By phone (555-1234), by email 
(wwspamQwwspam fu) or by visiting our customer feedback page (http2/wwspam fufeedback) 


车 




















图 20-2 再 次 尝试 生成 的 网 页 


相 比 初次 实现 , 再 次 实现 显然 更 复杂 ,涉及 范围 更 广 。 值 得 花 精 力 去 实现 这 样 的 复杂 性 ， 
为 创建 出 的 程序 更 灵活 、 可 扩展 性 更 强 。 要 对 其 进行 修改 ,以 支持 其 他 的 输入 和 输出 格式 ， 只 需 
派生 出 子 类 并 初始 化 既 有 的 类 ， 而 不 像 原 型 那样 需要 推倒 重 来 。 


20.6 ”进一步 探索 


这 个 程序 存在 如 下 潜在 的 扩展 空间 。 

口 增加 对 表格 的 支持 。 为 此 ， 只 需 找 出 左 对 齐 内 容 的 边界 ， 并 将 文本 块 分 成 多 列 。 

口 突出 全 部 大 写 的 单词 。 为 此 ， 需 要 考虑 缩 略 语 、 标 点 、 姓 名 和 其 他 首 字 母 大 写 的 单词 。 

口 支持 LATEX 格 式 的 输出 。 

口 编写 一 个 执行 其 他 处 理 ( 而 不 是 添加 标记 ) 的 处 理 程序 ， 如 以 某 种 方式 对 文档 进行 分 析 。 
口 创建 一 个 脚本 ,将 特定 目录 中 的 所 有 文本 文件 都 自动 转换 为 HTML 文 件 。 

口 了解 其 他 纯 文 本 格式 ， 如 Markdown、reStructuredText 或 维基 百科 使 用 的 格式 。 























预告 


为 完成 这 个 可 能 很 有 用 的 项 目 , 我 们 费 了 九 牛 二 虎 之 力 , 该 介绍 点 轻松 的 内 容 了 。 下 一 章 将 
根据 从 网 上 自动 下 载 的 数据 创建 一 些 图 表 ， 这 易如反掌 
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本 章 介 绍 如 何 使 用 Python 创建 图 表 。 具 体 地 说 ， 你 将 创建 一 个 PDF 文件 ， 其 中 包含 的 图 表 对 
从 文本 文件 读 取 的 数据 进行 了 可 视 化 。 虽 然 常 规 的 电子 表格 软件 都 提供 这 样 的 功能 , 但 Python 提 
供 了 更 强大 的 功能 。 当 你 再 次 实现 这 个 项 目 并 从 网 上 自动 下 载 数据 时 ， 就 将 意识 到 这 一 点 。 

前 一 章 介绍 了 HTML 和 XML， 在 本 章 中 ,你 将 遇 到 另 一 个 很 熟悉 的 缩 略 语 一 PDF。 它 指 的 
是 可 移植 的 文档 格式 ( portable document format )。PDF 是 Adobe 开 发 的 一 种 格式 ， 可 表示 任何 包 
含 图 形 和 文本 的 文档 。 不 同 于 Microsoft Word 等 文档 ，PDF 文 件 是 不 可 编辑 的 ， 但 有 适用 于 大 多 
数 平台 的 免费 阅读 器 软件 。 另 外 ,无 论 在 哪 种 平台 上 使 用 什么 阅读 器 来 查看 ， 显 示 的 PDF 文件 都 
相同 ; 而 HTML 格 式 则 不 是 这 样 的 ， 它 要 求 平 台 安 装 指定 的 字体 ， 还 必须 将 图 片 作为 独立 的 文件 
进行 传输 。 


21.1 问题 描述 


Python 很 善于 分 析 数 据 。 相 比 于 使 用 普通 的 电子 表格 软件 ， 使 用 Python 提供 的 文件 和 字符 串 
处 理 功 能 来 根据 数据 文件 创建 某 些 报表 可 能 更 容易 ， 在 需要 执行 复杂 的 编程 逻辑 时 尤其 如 此 。 
第 3 章 介 绍 过 ， 使 用 字符 串 格 式 设置 功能 可 打印 出 漂亮 的 输出 ， 如 分 列 打印 数字 。 然 而 ,在 
有 些 情况 下 ， 仅 使 用 纯 文 本 还 不 够 。( 俗话 说 ， 一 图 胜 千言 。) 在 本 章 中 ， 你 将 学 习 ReportLab 包 
的 基本 知识 ， 它 让 你 能 够 像 创建 纯 文本 一 样 轻 松 地 创建 PDF 格式 (和 其 他 格式 ) 的 图 形 和 文档 。 
学 习 本 章 将 介绍 的 概念 时 ,建议 你 去 找 些 有 趣 的 应 用 程序 。 本 章 将 根据 有 关 太 阳 黑 子 的 数据 
(来 自 美 国 国家 海洋 和 大 气管 理 局 的 空间 天 气 预 测 中 心 ) 创建 一 个 折线 图 。 
本 章 要 创建 的 程序 必须 具备 如 下 功能 : 
口 从 网 上 下 载 数据 文件 ; 
口 对 数据 文件 进行 解析 ， 并 提取 感 兴趣 的 内 容 。 
口 根据 这 些 数据 创建 PDF 图 形 。 
与 前 一 个 项 目 一 样 ， 原 型 可 能 没有 实现 所 有 这 些 目 标 。 


21.2 ”有 用 的 工具 
就 这 个 项 目 而 言 ， 最 重要 的 工具 是 图 形 生成 包 。 这 样 的 包 有 很 多 ， 我 选择 的 是 ReportLab， 
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因为 它 易 于 使 用 ， 并 且 提 供 了 丰富 的 PDF 图 形 和 文档 生成 功能 。 如 果 你 不 想 只 是 晴 晓 点 水 ， 可 考 
虑 使 用 图 形 包 PYX ( http://pyx.sf.net )， 其 功能 非常 强大 ， 并 支持 基于 TEX 排 版 。 

要 获取 ReportLab 包 ， 可 访问 其 官网 http:/www.reportlab.org， 其 中 包含 软件 、 文 档 和 示例 。 
你 可 从 这 个 网 站 下 载 ReportLab， 也 可 使 用 pip 来 安装 它 。 安 装 ReportLab 后 ， 就 能 够 导入 模块 
reportlab 了 ， 如 下 所 示 : 


>>> import reportlab 
>>> 





注意 在 这 个 项 目 中 ,我 将 演示 ReportLab 的 一 些 功 能 ， 但 它 还 有 很 多 其 他 的 功能 。 要 进行 更 深 
入 的 学 习 ， 建 议 你 从 ReportLab 网 站 获取 用 户 手 册 。 这 个 用 户 手 册 萄 于 理解 ， 涵 盖 的 内 容 
比 本 章 全 面 得 多 。 


21.3 ”准备 工作 


开始 编程 之 前 , 需要 一 些 用 来 测试 程序 的 数据 。 我 (很 随意 地 ) 选择 了 有 关 太 阳 黑 子 的 数据 ， 
这 些 数据 可 从 空间 天 气 预测 中 心 ( http:/www.swpc.noaa.gov ) 下 载 。 我 在 示例 中 使 用 的 数据 可 在 
ftp://ftp.swpc.noaa.gov/pub/weekly/Predict.txt 找 到 。 

这 个 数据 文件 每 周 都 会 更 新 ， 其 中 包含 有 关 太 阳 黑 子 和 辐射 流量 的 数据 。 下 载 这 个 文件 后 ， 
就 可 着 手 解决 问题 了 。 

下 面 是 这 个 文件 的 一 部 分 ， 从 中 能 够 管 舌 到 它 包 含 什么 样 的 数据 : 























# Predicted Sunspot Number And Radio Flux Values 

# With Expected Ranges 

# 

# =----- Sunspot Number------ ----10.7 cm Radio Flux---- 
# YR MO PREDICTED HIGH LOW PREDICTED HIGH LOW 
人 
2016 03 30.9 31.9. 29.9 96.9 97.9 95.9 
2016 04 30.5 32:5 28.5 96.1 97.1 95.1 
2016 05 30.4 33.4 27.4 94.9 96.9 92.9 
2016 06 30.3 35.3 25.3 93 .2 96.2 90.2 
2016 07 30.2 35 .2 25.2 91.6 95.6 87.6 
2016 08 30.0 36.0 24.0 90.3 94.3 86.3 
2016 09 29.8 36.8 22.8 89.5 94.5 84.5 
2016 10 30.0 37.0 23.0 88.9 94.9 82.9 
2016 11 30.1 38.1 2 88.1 95 .1 81.1 
2016 12 30.5 39.5 21.5 87.8 95.8 79.8 





21.4 ”初次 实现 


在 初次 实现 中 ,我 们 将 以 元 组 列表 的 方式 将 这 些 数据 添加 到 源 代码 中 , 以 便 轻 松 地 使 用 它们 。 
下 面 演示 了 如 何 这 样 做 : 
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data = [ 
# 其 他 数据 
(2016，03，30.9，31.9，29.9)， 
(2016，04，30.5，32.5，28.5)， 
# Add more data here 


] 
完成 这 项 工作 后 ， 来 看 看 如 何 将 数据 转换 为 图 形 。 


21.4.1 使 用 ReportLab 绘图 


ReportLab 由 很 多 部 分 组 成 , 让 你 能 够 以 多 种 方式 生成 输出 。 就 生成 PDF 而 言 , 最 基本 的 模块 
是 pdfgen， 其 中 的 Canvas 类 包含 多 个 低级 绘图 方法 。 例如， 要 在 名 为 c< 的 Canvas 上 绘制 直线 ,可 调 
用 方法 c.1ine。 

我 们 将 使 用 更 高 级 的 图 形 框架 ( reportlab.graphics 包 及 其 子 模块 ), 它 能 让 我 们 创建 各 种 形 
状 ， 将 其 添加 到 Drawing 对 象 中 ， 再 将 Drawing 对 象 输出 到 PDF 文件 中 。 

代码 清单 21-1 是 一 个 示例 程序 ， 它 在 一 个 100 点 x100 点 的 PDF 图 形 中 央 绘 制 字符 串 "Hello， 
wor1d!" ， 如 图 21-1 所 示 。 这 个 程序 的 基本 结构 如 下 : 创建 一 个 指定 尺寸 的 Drawing 对 象 ， 再 创建 
具有 指定 属性 的 网 形 元 素 ( 这 里 是 一 个 String 对 象 )， 然 后 将 图 形 元 素 添 加 到 Drawing 对 象 中 。 最 
后 ， 以 PDF 格式 泻 染 Drawing 对 象 ， 并 将 结果 保存 到 文件 中 。 




















代码 清单 21-1 一 个 简单 的 ReportLab 程 序 (hello report.py ) 


from reportlab.graphics.shapes import Drawing, String 
from reportlab.graphics import renderPDF 


d = Drawing(100, 100) 
s = String(50, 50, 'Hello, world!', textAnchor='middle') 
d.add(s) 


renderPDF .drawToFile(d, 'hello.pdf', 'A simple PDF file') 








器 Acrobat Reader - [hello.pdf] [| 
和 同 Fe Edt Document View Window Help -各 Xx 
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图 21-1 一 个 简单 的 ReportLab 图 形 
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上 述 对 renderpPDF.drawToFile 的 调用 将 PDF 文件 保存 到 当前 目录 下 的 文件 hello.pdf 中 。 

构造 函数 String 的 主要 参数 包括 x* 坐 标 和 ) 坐 标 以 及 文本 。 另 外 ， 你 还 可 指定 各 种 属性 ， 如 
字号 、 颜 色 等 。 在 这 里 ， 我 设置 了 参数 textAnchor ， 它 指定 要 将 字符 串 的 哪 部 分 放 在 坐标 指定 
的 位 置 。 
21.4.2 ”绘制 折线 

为 绘制 太阳 黑子 数据 折线 图 ， 需 要 绘制 一 些 直线 。 实 际 上 ， 你 需要 绘制 多 条 相连 的 直线 。 
ReportLab 提 供 了 一 个 专门 用 于 完成 这 种 工作 的 类 PolyLine。 

要 创建 折线 ( PolyLine 对 象 )， 需 要 将 第 一 个 参数 指定 为 一 个 坐标 列表 。 这 个 列表 形 如 [(xo， 
y0),(x1，y1)，...]， 其 中 每 对 x* 坐 标 和 ?坐标 都 指定 了 折线 上 的 一 个 点 。 图 21-2 展 示 了 一 条 简单 
的 折线 。 














固 Acrobat Reader - [polyline.pdf] -J 
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图 21-2 PolyLine([(0, 0), (10, 0), (10, 10), (0, 10)]) 

要 绘制 折线 图 , 必须 为 数据 集中 的 每 列 数据 绘制 一 条 折线 。 这 些 折线 上 的 每 个 点 都 由 时 间 ( 年 
和 月 ) 和 值 (从 相关 列 获取 的 太阳 黑子 数 ) 组 成 。 要 获得 一 列 的 值 ， 可 使 用 列表 推导 。 

pred = [row[2] for row in data] 

pred 将 是 一 个 列表 ， 其 中 包含 第 3 列 的 所 有 值 。 你 可 使 用 类 似 的 方式 来 获取 其 他 列 的 值 。( 对 
于 每 行 的 时 间 ， 必 须根 据 年 和 月 来 计算 ， 如 year+ month/12。 ) 

有 了 值 和 时 间 戳 后 ， 便 可 像 下 面 这 样 在 Drawing 对 象 中 添加 折线 了 : 

drawing.add(PolyLine(list(zip(times, pred)), strokeColor=colors.blue)) 

当然 ， 并 非 必须 设置 笔画 的 颜色 ， 但 这 样 做 更 容易 将 折线 区 分 开 来 。 请 注意 ， 这 里 使 用 zip 
将 时 间 和 值 合并 成 了 元 组 列表 。 


21.4.3 ”编写 原型 
现在 可 以 编写 程序 的 第 一 个 版 本 了 ， 其 源 代 码 如 代码 清单 21-2 所 示 。 
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代码 清单 21-2 太阳 黑子 图 形 程序 的 第 一 个 原型 ( sunspots_proto.py ) 


from reportlab.1lib import colors 
from reportlab.graphics.shapes import * 
from reportlab.graphics import renderPDF 


data = [ 

# Year Month 
(2007，8， 
(2007, 9, 
(2007，10， 
(2007，11， 
(2007，12， 
(2008，1， 
(2008，2， 
(2008，3， 
(2008，4， 
(2008，5， 


] 


Predicted Hi 


113 .2， 
112585 
111.0， 
109.8， 
107.3， 
105.2， 
104.1， 
99.9， 
94.8， 
91.2， 
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drawing = Drawing(200，150) 


pred = [row[2]-40 for row in datal] 
high = [row[3]-40 for row in datal] 
low = [row[4]-40 for row 
times = [200*((row[0] + row[1]/12.0) - 2007)-110 for row in datal] 


drawing.add(PolyLine(list 
drawing.add(PolyLine(list 
drawing.add(PolyLine(list 


in data] 


zip(times, pred)), strokeColor=colors.blue)) 
zip(times, high)), strokeColor=colors.red)) 
zip(times, low)), strokeColor=colors.green)) 





drawing.add(String(65, 115, 'Sunspots', fontSize=18, fillColor=colors.red)) 





renderPDF .drawToFile(drawi 





ng, 'report1.pdf', 'Sunspots') 


如 你 所 见 ， 为 了 正确 地 定位 ， 我 调整 了 值 和 时 间 戳 。 生 成 的 图 形 如 图 21-3 所 示 。 
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图 21-3 ”一 个 简单 的 太阳 黑子 图 
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虽然 能 够 创建 出 管用 的 程序 令 人 高 兴 ， 但 这 个 程序 显然 还 有 改进 的 空间 。 


21.5 ”再 次 实现 


通过 编写 这 个 原型 ， 我 们 学 到 了 什么 呢 ? 我 们 学 到 了 使 用 ReportLab 进 行 绘图 的 基本 知识 ， 
还 知道 了 如 何 提取 数据 ， 以 便 使 用 提取 的 数据 轻松 地 绘制 图 表 。 然 而 ， 这 个 程序 存在 一 些 缺 陷 。 
为 将 折线 放 在 正确 的 位 置 , 我 对 值 和 时 间 蕉 做 了 权宜 性 修改 。 男 外 ,这 个 程序 并 没有 从 任何 地 方 
获取 数据 ， 换 而 言 之 ， 它 从 程序 本 身 包含 的 列表 中 获取 数据 ， 而 不 是 从 外 部 来 源 读 取 数 据 。 

不 同 于 项 目 1 ( 参见 第 20 章 ), 这 个 项 目的 再 次 实现 在 规模 和 复杂 程度 上 都 不 比 初 次 实现 大 大 
多 ， 只 是 做 了 增 量 改 进 : 使 用 更 合适 的 ReportLab 功 能 ， 并 从 网 上 获取 数据 。 


21.5.1 获取 数据 


第 14 章 介绍 过 ， 要 从 网 上 获取 文件 ， 可 使 用 标准 模块 urllib。 这 个 模块 中 的 函数 urlopen 很 
像 open， 但 将 URL( 而 不 是 文件 名 ) 作为 参数 。 打 开 文 件 并 读 取 其 内 容 后 ， 需 要 将 不 需要 的 内 容 
剔除 。 这 里 使 用 的 文件 包含 空 行 ( 只 有 空白 的 行 )， 还 包含 以 特殊 字符 ( #0: ) 打头 的 行 。 程 序 
应 忽略 这 些 行 。( 参见 21.3 节 的 示例 文件 片段 。) 







































































假设 URL 存 储 在 变量 URL 中 ， 而 变量 COMMENT_CHARS 包 含 字符 串 '#:' ， 就 可 像 下 面 这 样 获得 一 
个 包含 内 容 行 的 列表 ( 就 像 原 来 的 程序 那样 ): 


data = [] 
for line in urlopen(URL) .readlines() : 
line = line.decode() 
if not line.isspace() and not line[0] in COMMENT CHARS: 
data.append([float(n) for n in line.split()]) 


上 述 代 码 将 导致 列表 data 包 含 所 有 列 ， 可 我 们 对 有 关 辐 射流 量 的 数据 不 感 兴趣 。 提 取 需 要 的 
列 时 ， 我 们 将 把 这 些 列 剔除 掉 〈 就 像 原来 的 程序 那样 )。 

















注意 如 果 你 使 用 的 是 自己 的 数据 源 ( 抑或 等 你 阅读 本 书 时 ， 太 阳 黑 子 文 件 的 数据 格式 发 生 了 
变化 )， 就 需要 相应 地 修改 上 述 代码 。 


21.5.2 ”使 用 LinePlot 类 


如 果 说 获取 数据 简单 得 出 人 意料 , 那么 绘制 漂亮 的 折线 图 也 不 太 难 。 在 这 种 情况 下 ， 最 好 浏 
览 一 下 文档 ( 这 里 是 ReportLab 文 档 )， 看 看 是 否 有 能 够 完成 所 面临 任务 的 现成 功能 ， 让 你 无 需 自 
己 去 实现 。 所 幸 确 实 有 这 样 的 功能 : 模块 reportlab.graphics.charts.lineplots 中 的 LinePlot 类 。 
当然 ,我 们 最 初 就 应 查找 这 样 的 类 ,但 快速 设计 原型 时 ,秉承 的 理念 是 手头 有 什么 就 用 什么 ,并 
看 看 能 使 用 它们 做 什么 。 然 而 ， 现 在 该 更 进一步 了 。 

你 在 不 指定 任何 参数 的 情况 下 实例 化 LinePlot, 再 设置 其 属性 , 然后 将 其 添加 到 Drawing 对 象 
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中 。 需 要 设置 的 主要 属性 包括 x、y、height、width 和 data。 前 4 个 属性 的 含义 不 言 自 明 ， 而 data 
是 一 个 由 点 列表 组 成 的 列表 ， 其 中 每 个 点 列表 都 是 一 个 元 组 列表 ， 类 似 于 创建 PolyLine 时 使 用 的 
列表 。 

另外 ,我 们 还 将 设置 每 条 折线 的 颜色 。 最 终 的 代码 如 代码 清单 21-3 所 示 ， 而 生成 的 图 形 如 图 
21-4 所 示 。( 当然 ， 使 用 不 同 的 输入 数据 时 ， 生 成 的 图 形 将 截然 不 同 。) 


代码 清单 21-3 ”最 终 的 太阳 黑子 程序 (sunspots.py ) 


from urllib.request import urlopen 

from reportlab.graphics.shapes import * 

from reportlab.graphics.charts.lineplots import LinePJoft 
from reportlab.graphics.charts.textlabels import Label 
from reportlab.graphics import renderPDF 
































URL = 'ftp://ftp.swpc.noaa.gov/pub/weekly/Predict.txt' 
COMMENT_CHARS = '"#:" 


drawing = Drawing(400，200) 
data = [] 
for line in urlopen(URL) .readlines() : 
line = line.decode() 
if not line.isspace() and line[0] not in COMMENT CHARS: 
data.append([float(n) for n in line.split()]) 


pred = [row[2] for row in data 
high = [row[3] for row in data 
low = [row[4] for row in datal] 
times = [row[0] + row[1]/12.0 for row in datal] 





LinePlot() 
= 50 
.y= 50 
.height = 125 
.width = 300 
.data = [list(zip(times, pred)), 
ist(zip(times, high)), 
ist(zip(times, low))] 
p.lines[0].strokeColor = colors.blue 
p.lines[1].strokeColor = colors.red 
p.lines[2].strokeColor = colors.green 


x ll 


OO 


上 





和 








drawing.add(1p) 


drawing.add(String(250, 150,'Sunspots', 
fontSize=14, fillColor=colors.red)) 





renderPDF .drawToFile(drawing, 'report2.pdf', 'Sunspots 
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Sunspots 














图 21-4 “最 终 的 太阳 黑子 图 





21.6 ”进一步 探索 


Python 图 形 和 绘图 包 有 很 多 。 除 ReportLab 外 ， 男 一 个 不 错 的 选择 是 本 章 前 面 提 到 的 PYX。 无 
论 使 用 ReportLab、PYX 还 是 其 他 绘图 包 ， 都 可 尝试 将 自动 生成 的 图 形 姐 入 文档 (甚至 生成 文档 
的 各 个 部 分 )。 要 给 文本 添加 标签 ， 可 使 用 第 20 章 介绍 的 技巧 。 如 果 要 创建 PDF 文件 ， 可 使 用 
ReportLab 中 的 Platypus ( 也 可 使 用 LATEX 等 排版 系统 来 集成 PDF 图 形 )。 如 果 要 创建 网 页 ，Python 
也 提供 了 很 多 创建 像素 映射 图 形 (如 GIF 或 PNG ) 的 方法 一 一 在 网 上 搜索 这 个 主题 就 能 找到 相关 
的 资料 。 

如 果 你 的 主要 目标 是 根据 数据 绘制 图 表 ( 就 像 这 个 项 目 一 样 )， 那 么 除 ReportLab 和 PYX 外 ， 
还 可 选择 使 用 其 他 的 包 ， 其 中 很 不 错 的 一 个 是 Matplotlib/pylab( http://matplotlib.org )， 但 还 有 很 
多 其 他 类 似 的 包 。 

















预告 











在 第 一 个 项 目 中 , 你 学 习 了 如 何 通 过 创建 可 扩展 的 解析 器 来 给 纯 文本 文件 添加 标记 。 在 下 一 
个 项 目 中 ， 你 将 学 习 如 何 使 用 Python 标准 库 中 既 有 的 解析 机 制 来 分 析 带 标记 的 文本 (XML )。 这 
个 项 目的 目标 是 编写 一 个 程序 ， 它 自动 生成 由 一 个 XML 文件 定义 的 网 站 ， 包 括 文件 、 目 录 以 及 
添加 的 页 眉 和 页 脚 。 你 将 在 这 个 项 目 中 学 到 的 技术 也 可 用 于 普通 的 XML 分 析 。 鉴 于 XML 无 处 不 
在 ， 这 大 有 神 益 。 
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第 20 章 提 到 过 XML ， 现 在 该 更 详细 地 讨论 它 了 。 在 这 个 项 目 中 ， 你 将 看 到 XML 可 用 来 表示 
各 种 类 型 的 数据 ， 以 及 如 何 使 用 Simple API for XML (SAX ) 来 处 理 XML 文件 。 这 个 项 目的 目标 
是 ， 根 据 描述 各 种 网 页 和 目录 的 单个 XML 文件 生成 完整 的 网 站 。 

本 章 假设 你 知道 XML 是 什么 以 及 如 何 编写 。 如 果 你 对 HTML 有 些 了 解 ,， 就 已 经 熟悉 了 这 些 基 
本 知识 。 不 像 HTML 那样 是 一 种 特定 的 语言 ， XML 是 一 组 定义 一 类 语言 的 规则 。 大 致 而 言 ， 你 依 
然 像 使 用 HTML 那样 编写 标签 , 但 在 XML 中 , 还 可 自 定 义 标签 名 。 这 些 标 签名 及 其 结构 关系 可 使 
用 文档 类 型 定义 (document type definition ) 或 XML 架构 (XML Schema ) 来 描述 ， 但 这 里 不 讨论 

有 关 XML 的 简洁 描述 ,请 参阅 万 维 网 联盟 ( W3C ) 网 站 的 文章 “XML in10 points”( https:/www. 
w3.org/XML/1999/XML-in-10-points-19990327 )。 有 关 XML 的 详尽 教程 ， 请 参阅 W3Schools 网 站 
( http:/www.w3schools.com/xml )。 有 关 SAX 的 详细 信息 , 请 参阅 SAX 官 网 ( http:/www.saxproject.org )。 













































































22.1 问题 描述 


在 这 个 项 目 中 ， 要 解决 的 通用 问题 是 解析 〈 读 取 并 处 理 ) XML 文件 。 鉴 于 XML 几乎 可 用 来 
表示 任何 信息 ， 而 你 可 对 其 中 的 数据 做 任何 处 理 ， 因 此 正如 标题 指出 的 ,本 章 介绍 的 技巧 拥有 非 
常 广泛 的 用 途 。 本 章 要 解决 的 具体 问题 是 ， 根 据 一 个 XML 文件 生成 完整 的 网 站 ， 而 这 个 文件 描 
述 了 网 站 的 结构 以 及 每 个 网 页 的 基本 内 容 。 

着 手 处 理 这 个 项 目前 ， 建 议 你 花 点 时 间 了 解 XML 及 其 用 途 。 这 样 你 可 能 有 更 深入 的 认识 ， 
知道 在 什么 情况 下 使 用 这 种 格式 很 有 用 ， 什 么 情况 下 使 用 它 犹如 大 炮 打 蚊子 。( 毕竟 ， 有 时 使 用 
纯 文 本 文件 足够 了 。 ) 


XML 可 用 来 表示 任何 信息 


你 可 能 对 此 持 怀 疑 态 度 ， 下 面 来 看 几 个 有 关 其 用 途 的 示例 。 

口 标记 文本 以 便 进 行 普通 的 文档 处 理 ， 如 XHTML ( http:/www.w3.org/TR/xhtmll ) 或 
DocBook XML (http:/www.docbook.org )。 

口 表示 音乐 (http://musicxml.org )。 
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口 表示 人 的 心情 、 情 感 和 性 格 特征 ( http://xml.coverpages.org/humanML.html )。 
口 描述 任何 物体 (http://xml.coverpages.org/pml-ons.html )。 
口 通过 网 络 调 用 Python 方法 (使 用 XML-RPC， 这 将 在 第 27 章 演示 )。 
XML Cover Pages ( http://xml.coverpages.org/xml.html#applications ) 提供 了 一 些 现 有 的 XML 
应 用 示例 。 








下 面 来 确定 这 个 项 目的 具体 目标 。 
口 整个 网 站 由 单个 XML 文件 描述 ， 该 文件 包含 有 关 各 个 网 页 和 目录 的 信息 。 
口 程序 应 根据 需要 创建 目录 和 网 页 。 
口 应 能 够 轻松 地 修改 整个 网 站 的 设计 并 根据 新 的 设计 重新 生成 所 有 网 页 。 

仅 考虑 到 最 后 一 点 ， 就 值得 创建 这 样 的 XML 文件 了 ， 但 还 有 其 他 的 好 处 。 通 过 将 所 有 的 内 
容 放 在 一 个 XML 文件 中 , 可 轻松 地 编写 其 他 程序 ,以 使 用 同样 的 XML 处 理 技术 来 提取 各 种 信息 ， 
如 目录 和 供 自 定义 搜索 引擎 使 用 的 索引 等 。 另 外 ， 就 算 不 用 来 创建 网 站 ,也 可 使 用 这 种 文件 来 创 
建 基 于 HTML 的 幻灯 片 或 PDF 幻灯 片 〈 方 法 是 使 用 前 一 章 讨 论 的 ReportLab )。 


22.2 ”有 用 的 工具 


Python 本 身 提供 了 对 XML 的 支持 , 但 如 果 你 使 用 的 版 本 较 旧 ,可 能 需要 安装 额外 的 模块 。 在 
这 个 项 目 中 ,需要 一 个 管用 的 SAX 解 析 器 。 要 确定 是 否 已 经 有 这 样 的 SAX 解 析 需 ,可 尝试 执行 如 
下 代码 : 


>>> from xml.sax import make parser 
>>> parser = make parser() 


当 你 这 样 做 时 ,很 可 能 不 会 发 生 异 常 。 如 果 是 这 样 ， 就 说 明 万 事 俱 备 ， 可 以 接着 阅读 下 一 







































































提示 “有 很 多 Python XML 工具 ， 除 标准 框架 PyXML 外 ， 另 一 个 很 有 趣 的 工具 是 Fredrik Lundh 开 
发 的 ElementTree (及 其 C 语 言 实现 cElementTree )。 在 较 新 的 Python 版 本 中 ,标准 库 包 含 这 
个 工具 ， 它 位 于 xml.etTee 包 中 。 如 果 你 使 用 的 Python 版 本 较 旧 ， 可 从 http:/Weffbot.org/zone 
获取 ElementTree。 这 个 工具 功能 强大 却 易 于 使 用 ， 如 果 你 很 重视 使 用 Python 处 理 XML， 
就 值得 花 时 间 去 研究 它 。 


如 果 出 现 异 常 ， 就 必须 安装 PyXML。 只 要 在 网 上 搜索 一 下 ， 就 应 该 能 够 找到 安装 指南 (但 
除非 你 使 用 的 Python 版 本 很 上 古老， 否则 应 提供 了 XML 支 持 )。 


22.3 ”准备 工作 


要 编写 处 理 XML 文 件 的 程序 ， 必 须 先 设计 要 使 用 的 XML 格 式 。 需 要 哪些 标签 ”这些 标 签 应 
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包含 哪些 属性 ? 各 个 标签 都 用 来 做 什么 ? 为 回答 这 些 问 题 ， 首 先 需 要 考虑 你 要 使 用 这 种 XML 格 


式 来 描述 什么 。 





目录 。 




















URL 中 。 








主要 的 概念 包括 网 站 、 目 录 、 页 面 、 名 称 、 标 题 和 内 容 。 
口 你 不 会 存储 有 关 网 站 本 身 的 任何 信息 ， 因 此 网 站 只 是 一 个 顶级 元 素 , 包含 所 有 的 文件 和 


口 目录 主要 用 作文 件 和 其 他 目录 的 容器 。 
口 页 面 是 单个 网 页 。 
口 目录 和 网 页 都 得 有 名 称 。 这 些 名 称 就 是 目录 名 和 文件 名 ， 将 出 现在 文件 系统 和 相应 的 

















口 每 个 网 页 都 必须 有 标题 ( 不 同 于 文件 名 )。 
口 每 个 网 页 都 包含 一 些 内 容 。 在 这 里 ,我 们 只 使 用 普通 的 XHTML 来 表示 内 容 。 这 样 可 直接 











将 内 容 放 在 最 终 的 网 页 中 ， 并 让 浏览 右 进 行 解读 。 


总 之 ，XML 文档 只 包含 一 个 website 元 素 ， 这 个 元 素 包 含 多 个 directory 和 page 元 素 ， 其 中 每 
个 directory 元 素 都 可 能 包含 page 和 directory 元 素 。directory 和 page 元 素 都 包含 属性 name， 而 该 














属性 包含 目录 或 页 面 的 名 称 。 另 外 ，page 元 素 还 有 属性 title。page 元 素 包含 XHTML 代码 ( 这 种 


代码 的 类 型 是 在 XHTML body 标 签 中 指定 的 )。 代 码 清单 22-1 是 一 个 这 样 的 示例 文件 。 


代码 清单 22-1 一 个 表示 简单 网 站 的 XML 文 件 ( website.xml ) 


<website> 


<page name="index" title="Home Page"> 
<hi>Welcome to My Home 


<p>Hi, there. My name 


Here are some of 


<ul> 


<li><a href="i 
<li><a href="i 
<li><a href="i 


</Uul> 
</page> 





<directory name="i 


my in 


nteres 
nteres 
nteres 


nteres 


<page name="shouting" 





<h1i>Mr. Gumby 
<p>...</p> 
</page> 


s Shou 





Page</h1> 


is Mr. Gumby, and this is my home page. 
terests:</p> 


ts/shouting.html">Shouting</a></1i> 
ts/sleeping.html">Sleeping</a></1i> 
ts/eating.html">Eating</a></1i> 


ts"> 
title="Shouting"> 
ting Page</h1> 


<page name="sleeping" title="Sleeping"> 
<h1i>Mr. Gumby's Sleeping Page</h1> 


ba YA bd 
</page> 


<page name="eating" title="Eating"> 
<h1i>Mr. Gumby's Eating Page</h1> 
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<p>...</p> 
</page> 
</directory> 
</website> 


22.4 初次 实现 


到 目前 为 止 ， 还 没有 介绍 XML 解析 的 工作 原理 。 这 里 使 用 的 方法 名 为 SAX， 它 要 求 我 们 编 
写 一 系列 事件 处 理 程序 ( 与 GUI 编程 中 一 样 )， 并 让 XML 解析 器 在 读 取 XML 文 档 时 调用 这 些 处 理 
程序 。 


使 用 DOM 如 何 


在 Python ( 和 其 他 编程 语言 ) 中 ， 处 理 XML 的 常见 方式 有 两 种 : SAX 和 文档 对 象 模式 
(DOM ) 。SAX 解 析 器 读 取 XML 文 件 并 指出 发 现 的 内 容 (文本 、 标 签 和 属性 ) ， 但 每 次 只 存储 
文档 的 一 小 部 分 。 这 让 SAX 简 单 、 快 捷 且 占用 的 内 存 较 少 ， 也 就 是 我 在 本 章 中 选择 使 用 它 的 | 
原因 所 在 。 DOM 采 用 的 是 另 一 种 方法 : 创建 一 个 表示 整个 文档 的 数据 结构 (文档 树 ) 。 这 种 
方法 的 速度 更 慢 ， 需 要 的 内 存 更 多 ， 但 在 需要 操作 文档 的 结构 时 很 有 用 。 


























22.4.1 创建 简单 的 内 容 处 理 程序 


使 用 SAX 进 行 解 析 时 ， 可 供 使 用 的 事件 很 多 , 但 这 里 只 使 用 其 中 的 三 个 : 元 素 开始 ( 遇 到 起 
始 标签 )、 元 素 结束 〈 遇 到 结束 标签 ) 和 普通 文本 (字符 )。 en: 我 们 将 使 用 模块 
xml.sax 中 的 函数 parse。 这 个 函数 负责 读 取 文件 并 生成 事件 ,但 生成 事件 时 ， 它 需要 调用 一 些 事 
件 处 理 程序 。 这 些 事 件 处 理 程序 将 实现 为 内 容 处 理 程序 对 象 的 方法 。 你 将 从 模块 xml .sax.handler 
中 的 ContentHandler 类 派生 出 一 个 子 类 ， 因 为 这 个 类 实现 了 所 有 必要 的 事件 处 理 程序 ( 什么 都 不 
做 的 伪 操 作 )， 而 你 只 需 重 写 需 要 的 事件 处 理 程序 。 

下 面 首先 来 创建 一 个 极 简 的 XML 解析 器 〈 这 里 假设 要 解析 的 XML 文件 名 为 website.xml )。 


from xml.sax.handler import ContentHandler 
from xml.sax import parse 



























































class TestHandler(ContentHandler): pass 
parse('website.xml', TestHandler()) 


如 果 执 行 这 个 程序 ,将 看 起 来 什么 都 没有 发 生 , 但 也 不 会 出 现任 何 错误 消息 。 然 而 ,在 幕后 
对 这 个 XML 文 件 进行 了 解析 ， 但 由 于 调用 的 是 什么 都 不 做 的 默认 事件 处 理 程序 ， 因 此 没有 任何 
输出 。 

下 面 来 尝试 进行 简单 的 扩展 。 为 此 ， 在 TestHandler 类 中 添加 如 下 方法 : 


def startElement(self, name, attrs): 
print(name, attrs.keys()) 
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这 重 写 了 默认 事件 处 理 


存储 在 一 个 类 似 于 字典 的 对 象 中 )。 如 果 你 再 次 运行 这 











程序 startElement ， 其 中 的 参数 为 相关 标签 的 名 称 和 属性 ( 这 些 属性 








进行 解析 )， 将 看 到 如 下 输出 : 


webs 
page 
h 

] 








uU 
Ee 


oy 
QQ 
[eo 











Oa Ve 
QQ 
om 





nn] 


ite [] 


'href'] 
'href'] 
'href' |] 


ctory [u'name' 
u'name', u'ti 


u'name', u'ti 








u'name', u'ti 





[u'name', u'title'] 


tle'] 


tle'] 


tle'] 


文 个 程序 ( 对 代码 清单 22-1 所 示 的 website.xml 





其 中 的 工作 原理 应 该 非常 清晰 。 除 startElement 外 ， 我 们 还 将 使 用 事件 处 理 程序 endElement 


( 它 只 将 标签 名 作为 





下 面 的 示例 使 月 


( hi 元 素 


from xml.sax.handler import ContentHandler 








): 


有 这 三 


个 事 





from xml.sax import parse 


class HeadlineHandler(ContentHandler): 


in headline = False 


def init _ (self, headlines): 


super(). 


init 


—() 


self.headlines = headlines 


self.data = [ 


def StartElement (self 


if name == 


def endElement(se 





if name == 


text = "" 


self.da 


"hi 


self.in head 


f， 
sh 


ta = 





self.headlin 
self.in head 


.joi 


ine = True 
name): 
n(self.data) 
] 


es.append(text) 
ine = False 





,Name, attrs): 





参数 ) 和 characters ( 它 将 一 个 字符 串 作 为 参数 )。 
件 处 理 程序 来 创建 一 个 列表 , 其 中 包含 网 站 描述 文件 中 的 所 有 标题 
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def characters(self, string): 
if self.in headline: 
self.data.append(string) 


headlines = [ 
parse('website.xml', HeadlineHandler(headlines)) 





print('The following <h1> elements were found:') 
for h in headlines: 
print(h) 


请 注意 ，HeadlineHandler 跟 踪 当 前 解析 的 文本 是 否 位 于 一 对 hi 标签 内 ， 其 实现 如 下 : 在 
startElement 发 现 标 签 为 h1 时 将 self.in headline 设 置 为 True, 并 在 endElement 发 现 标 签 为 h1 时 将 
self.in_headline 设 置 为 False。 方 法 characters 在 解析 器 遇 到 文本 时 自动 被 调用 。 只 要 当前 位 于 
两 个 h1 标 签 之 间 ( self.in_headline 为 True )，characters 就 将 传递 给 它 的 字符 串 ( 可 能 只 是 这 两 
个 标签 之 间 的 文本 的 一 部 分 ) 附加 到 字符 串 列表 self.data 的 末尾 。 将 这 些 文本 片段 合并 为 单个 
字符 品 ， 将 结果 附加 到 self.headlines 末 尾 并 将 self.data 重 置 为 空 列表 的 任务 也 是 由 endElement 
完成 的 。 在 SAX 编 程 中 ， 这 种 做 法 〈 使 用 布尔 变量 来 指出 当前 是 否 在 特定 标签 类 型 内 ) 很 常见 。 

现在 如 果 运 行 这 个 程序 (仍然 是 对 代码 清单 22-1 所 示 的 文件 website.xml 进 行 解析 )， 将 得 到 
如 下 输出 : 


The following “h1> elements were found: 
Welcome to My Home Page 

Mr. Gumby's Shouting Page 

Mr. Gumby's Sleeping Page 

Mr. Gumby's Eating Page 












































22.4.2 创建 HTML 页 面 


现在 可 以 创建 原型 了 。 我 们 暂时 不 考虑 目录 ， 而 是 专注 于 创建 HTML 页面。 你 需要 稍微 修改 
事件 处 理 程序 ， 使 其 执行 如 下 任务 。 
口 在 每 个 page 元 素 的 开头 ,打开 一 个 给 定名 称 的 新 文件 ,并 在 其 中 写 入 合适 的 HTML 首 部 ( 包 
括 指定 的 标题 )。 
口 在 每 个 page 元 素 的 末尾 ， 将 合适 的 HTML 尾 部 写 入 文件 ， 再 将 文件 关闭 。 
口 在 page 元 素 内 部 ， 遍 历 所 有 的 标签 和 字符 而 不 修改 它们 (将 其 原样 写 入 文件 )。 
口 在 page 元 素 外 部 ， 忽 略 所 有 的 标签 ( 如 website 和 directory )。 
这 些 任务 大 都 非常 容易 理解 ( 至 少 在 你 对 HTML 文 档 的 组 织 结构 有 所 了 解 时 如 此 )。 然 而 ， 
有 两 个 问题 可 能 不 那么 显而易见 。 
口 你 不 能 将 标签 原样 写 人 当前 创建 的 HTML 文 件 中 , 因为 只 给 你 提供 了 标签 的 名 称 ( 可 能 还 
有 一 些 属 性 )。 因 此 ， 你 必须 自己 重建 这 些 标签 ( 如 加 上 尖 插 号 等 )。 
口 SAX 本 身 无 法 告诉 你 当前 是 否 在 page 元 素 内 ， 因 此 你 必须 自己 跟踪 这 一 点 ( 就 像 在 示例 
HeadlineHandler 中 那样 )。 就 这 个 示例 而 言 ， 你 只 关心 是 否 要 原样 写 人 标签 和 字符 ， 因 此 
将 使 用 一 个 名 为 passthrough 的 布尔 变量 , 并 在 进入 和 离开 page 元 素 时 修改 这 个 变量 的 值 。 
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这 个 简单 程序 的 代码 如 代码 清单 22-2 所 示 。 
代码 清单 22-2 一 个 简单 的 页 面 创建 脚本 ( pagemaker.py ) 


from xml.sax.handler import ContentHandler 
from xml.sax import parse 


class PageMaker(ContentHandler): 
passthrough = False 


def startElement(self, name, attrs): 
if name == 'page': 
self.passthrough = True 
self.out = open(attrs[ name'] + '.html'’, 'w') 
self.out.write('<html><head>\n') 
self.out.write('<title>{}</title>\n' .format(attrs['title' ])) 
self.out.write('</head><body>\n') 

elif self.passthrough: 
self.out.write('<' + name) 

for key, val in attrs.items(): 

self.out.write(' {}="{}"'.format(key, val)) 

self.out.write('>') 

















def endElement(self, name): 
if name == 'page': 
self.passthrough = False 
self.out.write('\n</body></html>\n') 
self.out.close() 
elif self.passthrough: 
self.out.write('</{}>' .format(name)) 


def characters(self, chars): 
if self.passthrough: self.out.write(chars) 





parse( 'website.xml', PageMaker()) 


要 将 文件 存储 到 哪个 目录 ,就 应 在 哪个 目录 中 执行 这 个 脚本 。 请 注意 ， 即 便 两 个 页 面 位 于 不 
同 的 directory 元 素 中 ， 它 们 最 终 也 将 存储 到 同一 个 目录 中 。( 再 次 实现 时 将 修复 这 种 问题 。) 

同样 ， 对 代码 清单 22-1 所 示 的 文件 website.xml 进 行 解析 。 这 将 得 到 4 个 HTML 文 件 ， 其 中 的 
index.html 包 含 如 下 内 容 : 


<html><head> 
<title>Home Page</title> 
</head><body> 











<h1i>Welcome to My Home Page</h1> 


<p>Hi, there. My name is Mr. Gumby, and this is my home page. Here are Some of my 
interests:</p> 





<ul> 
<li><a href="interests/shouting.html">Shouting</a></1i> 
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<li><a href="interests/sleeping.html">Sleeping</a></1i> 
<li><a href="interests/eating.html">Eating</a></1i> 
</ul> 


</body></html> 
图 22-1 显 示 了 在 浏览 需 中 查看 这 个 页 面 的 结果 。 
攻 Home Page (K-Meleon) 加 [x] 
图 


Fle Edt View Go Bookmarks Favorites Help 











Welcome to My Home Page 
Hi, there. My name is Mr. Gumby, and this is my home page. Here are some of my interests- 


» Shouting 
二 











图 22-1 生成 的 网 页 之 一 


从 上 述 代码 可 知 ， 它 有 两 个 显而易见 的 主要 缺点 。 

口 它 使 用 if 语句 来 处 理 各 种 事件 。 如 果 要 处 理 的 事件 种 类 很 多 ，if 语 名 将 很 长 ， 变 得 难以 
理解 。 

口 HTML 代 码 是 硬 编码 的 。 这 应 该 很 容易 解决 。 

这 两 个 缺点 在 再 次 实现 中 都 将 得 到 解决 。 


22.5 ”再 次 实现 


鉴于 SAX 机 制 低级 而 简单 ， 编 写 一 个 混合 类 来 处 理 管理 性 细节 通常 很 有 帮助 。 这 些 管 理性 细 
节 包 括 收集 字符 数据 , 管理 布尔 状态 变量 ( 如 passthrough ), 将 事件 分 派 给 自 定 义 事件 处 理 程序 ， 
等 等 。 就 这 个 项 目 而 言 ， 状 态 和 数据 处 理 非常 简单 ， 因 此 这 里 将 专注 于 事件 分 派 。 


22.5.1 分 派 器 混合 类 


与 其 在 标准 通用 事件 处 理 程序 ( 如 startElement ) 中 编写 长 长 的 if 语 句 ， 不 如 只 编写 自 定义 
的 具体 事件 处 理 程序 ( 如 startPage ) 并 让 它们 自动 被 调用 。 你 可 在 一 个 混合 类 中 实现 这 种 功能 ， 
再 通过 继承 这 个 混合 类 和 ContentHandler 来 创建 一 个 子 类 。 




























































































注 第 7 章 说 过 ， 混 合 类 的 功能 有 限 ， 旨 在 与 其 他 更 重要 的 类 一 起 用 作 父 类 。 


涡 
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你 希望 程序 具有 如 下 功能 。 
口 startElement 被 调用 时 ， 如 果 参 数 name 为 'foo' ,， 它 应 尝试 查找 事件 处 理 程序 startFoo， 并 
使 用 提供 给 它 的 属性 调用 这 个 处 理 程序 。 
D 同样 ，endElement 被 调用 时 ， 如 果 参 数 name 为 ' foo' ， 它 应 尝试 调用 endFoo。 
口 如 果 没 有 找到 相应 的 处 理 程序 ， 这 些 方法 应 调用 方法 defaultstart 或 defaultEnd。 如 果 没 
有 这 些 默认 处 理 程序 ， 就 什么 都 不 做 。 
再 来 说 一 下 参数 的 问题 。 自 定义 处 理 程序 ( 如 startFoo ) 无 需 将 标签 名 作为 参数 ， 而 自 定 义 
默认 处 理 程序 ( 如 defaultSstart ) 需要 这 样 做 。 另 外 ， 只 有 起 始 处 理 程序 需要 将 属性 作为 参数 。 
一 头 雾 水 ” 先 来 编写 这 个 类 最 简单 的 部 分 。 


class Dispatcher: 
























































He 


def startElement(self, name, attrs): 
self.dispatch('start', name, attrs) 

def endElement(self, name): 
self.dispatch('end' , name) 


这 里 实现 了 基本 的 事件 处 理 程序 ， 它 们 只 是 调用 方法 dispatch， 而 dispatch 将 负责 查找 合适 
的 处 理 程序 、 创 建 参数 元 素 并 使 用 这 些 参数 调用 人 处理 程序 。 方 法 dispatch 的 代码 如 下 : 


def dispatch(self, prefix, name, attrs=None): 

mname = prefix + name.capitalize() 

dname = 'default' + prefix.capitalize() 

method = getattr(self, mname, None) 

if callable(method): args = () 

else: 
method = getattr(self, dname, None) 
args = Name, 

if prefix == 'start': args += attrs, 

if callable(method): method(*args) 


这 个 方法 所 做 的 工作 如 下 。 

(1) 根据 前 级 ('start' 或 'end' ) 和 标签 名 ( 如 'page' ), 生成 处 理 程序 的 名 称 ( 如 'startPage' )。 

(2) 根据 前 级 生 成 默认 处 理 程序 的 名 称 ( 如 ' defaultstart' )。 

(3) 尝试 使 用 getattr 获 取 处 理 程序 ， 并 将 默认 值 设置 为 None。 

(4) 如 果 结 果 是 可 调用 的 ， 就 将 args 设 置 为 一 个 空 元 组 。 

(5) 否则 ， 就 尝试 使 用 getattr 获 取 默 认 处 理 程序 ， 并 将 默认 值 也 设置 为 None。 另 外 ， 将 args 
设置 为 一 个 只 包含 标签 名 的 元 组 〈 因为 默认 处 理 程 序 只 需要 标签 名 )。 

(6) 如 果 要 调用 的 是 起 始 处 理 程序 ， 就 将 属性 添加 到 参数 元 组 ( args ) 中 。 

(7) 如 果 获 得 的 处 理 程序 是 可 调用 的 〈 即 为 可 行 的 具体 处 理 程序 或 默认 处 理 程序 ), 就 使 用 正 
确 的 参数 调用 它 。 

明白 了 吗 ?” 这 大 致意 味 着 你 现在 可 以 像 下 面 这 样 编写 内 容 处 理 程序 : 
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class TestHandler(Dispatcher, ContentHandler): 
def startPpage(self, attrs): 
print('Beginning page', attrs['name' ]) 
def endPage(self) : 
print('Ending page') 
鉴于 这 个 分 派 器 混合 类 负责 完成 了 大 部 分 管理 工作 , 因此 内 容 处 理 程序 非常 简单 、 易 于 理解 。 
当然 ， 稍 后 我 们 将 再 添加 一 些 功 能 。 


22.5.2 ”将 首部 和 尾部 写 入 文件 的 方法 以 及 黑 认 处 理 程 序 


本 方 比 前 一 方 容易 得 多 。 我们 将 编写 专门 用 于 将 首部 和 尾部 写 人 文件 的 方法 ， 而 不 在 事件 处 
理 程序 中 直接 调用 self.out .write。 这 样 就 可 通过 继承 来 轻松 地 重 写 这 些 方法 。 我 们 让 将 首部 和 
尾部 写 人 文件 的 方法 尽 可 能 简单 。 
def writeHeader(self, title): 
self.out.write("<html>\n <head>\n <title>") 


self.out.write(title) 
self.out.write("</title>\n </head>\n <body>\n") 


























def writeFooter(self): 
self.out.write("\n </body>\n</html>\n") 


在 初次 实现 中 ， 处 理 XHTML 内容 的 代码 还 与 处 理 程序 耦合 得 太 紧 ， 现 在 它们 将 由 
defaultSstart 和 defaultEnd 处 理 。 


def defaultStart(self, name, attrs): 
if self.passthrough: 
self.out.write('<' + name) 
for key, val in attrs.items(): 
self.out.write(' {}="{}"'.format(key, val)) 
self.out.write('>') 














def defaultEnd(self, name): 
if self.passthrough: 
self.out.write('</{}>' .format(name)) 


这 些 代码 与 前 面相 同 , 只 是 移 到 了 独立 的 方法 中 。( 这 通常 是 件 好 事 。) 现在 就 余下 最 后 一 块 
拼图 了 。 


22.5.3 ”支持 目录 


为 创建 必要 的 目录 ， 需 要 使 用 函数 os.makedirs， 它 在 指定 的 路 径 中 创建 必要 的 目录 。 例 如 ， 
os.makedirs('foo/bar/baz') 在 当前 目录 下 创建 目录 foo， 再 在 目录 foo 下 创建 目录 bar， 然 后 在 目 
录 bar 下 创建 目录 baz。 如 果 目 录 foo 已 经 存在 ， 将 只 创建 目录 bar 和 baz。 同 样 ， 如 果 目 录 bar 也 已 经 
存在 ， 将 只 创建 目录 baz。 然 而 ， 如 果 目 录 baz 也 已 经 存在 ， 通 常 将 引发 异常 。 为 避免 出 现 这 种 情 
况 ， 我 们 将 关键 字 参 数 exist ok 设置 为 True。 另 一 个 很 有 用 的 函数 是 os.path.join， 它 使 用 正确 
的 分 隔 符 〈 例 如 ， 在 UNIX 中 为 / ) 将 多 条 路 径 合 而 为 一 。 
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在 整个 处 理 期 间 ， 都 把 当前 目录 路 径 存 储 在 变量 directory 包 含 的 目录 名 列表 中 。 进 入 某 个 
目录 时 ， 就 将 其 名 称 附加 到 这 个 列表 末尾 ;而 离开 某 个 目录 时 ， 就 将 其 名 称 从 目录 列表 中 弹出 。 
你 可 定义 一 个 函数 ， 来 确保 当前 目录 已 创建 好 。 


def ensureDirectory(self): 
path = os.path.join(*self.directory) 
os.makedirs(path, exist ok=True) 


请 注意 ,将 目录 列表 传递 给 os .path.join 时 ,我 使 用 了 星 号 运算 符 * 进 行 了 参数 拆 分 。 
可 通过 参数 将 网 站 的 根 目录 ( 如 public_ html ) 传递 给 构造 函数 ， 如 下 所 示 : 


def init (self, directory): 
self.directory = [directory] 
self.ensureDirectory() 


22.5.4 ”事件 处 理 程序 


终于 要 实现 事件 处 理 程序 了 。 需 要 4 个 事件 处 理 程 序 ， 其 中 2 个 用 于 处 理 目 录 ， 另外 2 个 用 于 
处 理 页 面 。 目 录 人 处理 程序 只 使 用 了 列表 directory 和 方法 ensureDirectory。 


def startDirectory(self, attrs): 
self.directory.append(attrs['name' ]) 
self.ensureDirectory() 


















































def endDirectory(self): 
self.directory.pop() 


页 面 处 理 程序 使 用 了 方法 writeHeader 和 writeFooter。 男 外 ， 它 们 还 设置 了 变量 passthrough 
( 以 便 将 XHTML 代 码 直 接 写 入 文件 )， 而 且 打 开 和 关闭 与 页 面相 关 的 文件 ( 这 可 能 是 最 重要 的 )。 


def startPpage(self, attrs): 
filename = os.path.join(*self.directory + [attrs['name’] + '.html']) 
self.out = open(filename, 'w') 
self.writeHeader(attrs['title']) 
self.passthrough = True 














def endPage(self) : 
self.passthrough = False 
self.writeFooter() 
self.out.close() 


startpPage 的 第 一 行 代 码 看 起 来 有 点 吓人 ， 但 与 ensureDirectory 的 第 一 行 代 码 大 致 相同 ， 只 
是 加 上 了 文件 名 ( 和 文件 扩展 名 .html )。 
这 个 程序 的 完整 源 代码 如 代码 清单 22-3 所 示 。 


代码 清单 22-3 ”网 站 生成 器 〈website.py ) 


from xml.sax.handler import ContentHandler 
from xml.sax import parse 
import os 





























class Dispatcher: 


22.5 再 次 实现 351 





def dispatch(self, prefix, name, attrs=None): 
mname = prefix + name.capitalize() 
dname = 'default' + prefix.capitalize() 
method = getattr(self, mname, None) 
if callable(method): args = () 
else: 
method = getattr(self, dname, None) 
args = name, 
f prefix == 'start': args += attrs, 
if callable(method): method(*args) 


[= 








def startElement(self, name, attrs): 
self.dispatch('start', name, attrs) 


def endElement(self, name): 
self.dispatch('end', name) 





class WebsiteConstructor(Dispatcher, ContentHandler): 





passthrough = False 


def _init (self, directory): 
self.directory = [directory] 
self.ensureDirectory() 


def ensureDirectory(self): 
path = os.path.join(*self.directory) 
os.makedirs(path, exist ok=True) 


def characters(self, chars): 
if self.passthrough: self.out.write(chars) 


def defaultStart(self, name, attrs): 
if self.passthrough: 
self.out.write('<' + name) 





for key, val in attrs.items(): 
self.out.write(' {}="{}"'.format(key, val)) 
self.out.write('>') 
def defaultEnd(self, name): 
if self.passthrough: 
] e('</{}>' .format(name)) 








self.out.writ 





def startDirectory(self, attrs): 
self.directory.append(attrs['name' ]) 
self.ensureDirectory() 





def endDirectory(self): 
self.directory.pop() 


def startPpage(self, attrs): 
filename = os.path.join(*self.directory + [attrs['name'’] + '.html']) 
self.out = open(filename, 'w') 
self.writeHeader(attrs['title' ]) 
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self.passthrough = True 


def endPage(self) : 
self.passthrough = False 
self.writeFooter() 
self.out.close() 


def writeHeader(self, title): 
self.out.write('<html>\n <head>\n <title>') 
self.out.write(title) 
self.out.write('</title>\n </head>\n <body>\n') 





def writeFooter(self): 
self.out.write('\n </body>\n</html>\n') 














parse('website.xml', WebsiteConstructor('public html')) 
代码 清单 22-3 将 生成 如 下 文件 和 目录 : 

DD public html/ 

DD public html/index.html 

DQ public html/interests/ 

DQ public html/interests/shouting.html 

DD public html/interests/sleeping.html 





DD public html/interests/eating.html 


22.6 ”进一步 探索 


至 此 ， 你 创建 了 一 个 基本 程序 ， 可 对 其 做 哪些 扩展 呢 ? 下 面 是 一 些 建议 。 

口 创建 一 个 新 的 ContentHandler ， 用 于 创建 由 链接 组 成 的 网 站 目录 或 菜单 。 

口 在 网 页 中 添加 导航 帮助 ， 让 用 户 知 道 自己 身 在 何 处 〈 在 哪个 目录 中 )。 

口 创建 一 个 NebsiteConstructor 的 子 类 ， 并 在 其 中 重 写 方法 writeHeader 和 writeFooter ， 以 

实现 自 定 义 设 计 。 

口 再 创建 一 个 ContentHandler ， 使 其 根据 XML 文件 创建 单个 网 页 。 

口 创建 一 个 以 某 种 方式 ( 如 RSS ) 提供 网 站 内 容 摘要 的 ContentHandler。 

口 研究 其 他 XML 转 换 工 具 ， 尤 其 是 XML 转 换 ( XSLT )。 

口 使 用 ReportLab 中 的 Platypus ( http://www.reportlab.org ) 等 工具 根据 XML 文件 创建 一 个 或 多 
个 PDF 文档 。 

实现 通过 Web 界 面 编辑 XML 文 件 的 功能 (参见 第 25 章 )。 









































简单 地 介绍 XML 解 析 后 ， 我 们 来 做 些 网 络 编程 工作 吧 。 在 下 一 章 ， 你 将 创建 一 个 程序 ， 它 
能 够 从 各 种 网 络 来 源 收集 新 闻 ， 并 生成 自 定 义 的 新 闻 汇 总 。 
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网 上 充斥 着 形式 多 样 的 新 闻 源 ,包括 报纸 、 视 频频 道 、 博 客 、 播 客 等。 有 些 新 闻 源 还 提供 诸 
如 RSS 或 Atom feed 等 服务 ,让 你 使 用 相对 简单 的 代码 就 能 获取 最 新 的 新 闻 ， 而 无 需 对 网 页 进行 解 
析 。 在 这 个 项 目 中 ,我 们 将 探索 一 种 比 Web 更 早 面世 的 机 制 : 网 络 新 闻 传 输 协 议 ( Network News 
Transfer Protocol，NNTP )。 我 们 将 首先 创建 一 个 没有 任何 抽象 (没有 函数 、 没 有 类 ) 的 原型 ,再 
创建 一 个 包含 重要 抽象 的 通用 系统 。 为 此 ， 我 们 将 使 用 能 够 让 你 与 NNTP 服 务 器 交互 的 nntplib 
库 ， 但 添加 其 他 的 协议 和 机 制 应 该 很 简单 。 

NNTP 是 一 种 标准 网 络 协议 , 用 于 管理 在 Usenet 讨 论 组 中 发 布 的 消息 。NNTP 服 务 器 组 成 了 一 
个 统一 管理 新 闻 组 的 全 局 网 络 , 通 过 NNTP 客 户 端 ( 也 称 为 新 闻 阅 读 器 ) 可 发 布 和 阅读 消息 ,NNTP 
服务 器 组 成 的 主 网 络 称 为 Usenet， 创建 于 1980 年 (但 NNTP 协 议 到 1985 年 才 开 始 使 用 )。 相 比 于 最 
新 的 Web 潮 流 ， 这 算是 一 种 很 古老 的 技术 了 , 但 从 某 种 程度 上 说 ， 互 联网 的 很 大 一 部 分 都 基于 这 
样 的 古老 技术 ”, 而 且 尝 试 这 些 低级 的 技术 没什么 不 好 。 另外， 随时 都 可 将 本 章 使 用 的 NNTP 替 换 
为 你 自己 开发 的 新 闻 收 集 模块 ， 如 可 能 转 而 使 用 Facebook 或 Twitter 等 社交 网 站 提供 的 Web API。 


















































23.1 问题 描述 


本 章 要 编写 的 程序 是 一 个 信息 收集 代理 , 能 够 蔡 你 收集 信息 ( 具体 地 说 是 新 闻 ) 并 生成 新 闻 
汇总 。 基 于 你 对 网 络 功 能 的 了 解 ， 这 好 像 不 太 难 一 一 确实 不 难 , 但 在 这 个 项 目 中 , 需要 做 的 并 非 
仅仅 使 用 urllib 下 载 文 件 ， 你 将 使 用 男 一 个 网 络 库 ， 即 nntplibp， 它 使 用 起 来 要 难 些 。 男 外 ， 你 
还 需 重 构 程 序 以 文 持 不 同 的 新 闻 源 和 目的 地 ， 进 而 在 中 间 层 使 用 主 引擎 将 前 端 和 后 端 分 开 。 

最 终 的 程序 要 实现 的 主要 目标 如 下 。 

口 能 够 从 众多 不 同 的 新 闻 源 收集 新 闻 。 

口 可 轻松 地 添加 新 闻 源 〈 乃至 不 同类 型 的 新 闻 源 )。 

口 能 够 以 众多 不 同 的 格式 将 生成 的 新 闻 汇 编 分 发 到 众多 不 同 的 目的 地 。 
口 能 够 轻松 地 添加 新 的 目的 地 ( 乃至 不 同类 型 的 目的 地 )。 




































































Qa 你 知道 吗 ?http://groups.google.com 的 sci.math 和 rec.arts.sf.written 等 讨论 组 其 实 是 Usenet 新 闻 组 。 
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23.2 ”有 用 的 工具 


在 这 个 项 目 中 , 你 无 需 安装 额外 的 软件 , 但 要 用 到 一 些 标 准 库 模块 ,其 中 包括 你 以 前 没有 见 
过 的 nntplib， 它 负责 与 NNTP 服 务 器 交互 。 这 里 不 详细 介绍 这 个 模块 的 方方面面 ， 而 是 通过 建立 
原型 来 研究 它 。 


23.3 ”准备 工作 


要 使 用 nntplib， 你 必须 能 够 访问 NNTP 服 务 器 。 如 果 不 确定 能 否 这 样 做 ， 可 向 ISP 或 系统 管 
理 员 咨询 。 在 本 章 的 代码 示例 中 ， 我 使 用 的 是 新 闻 组 comp.lang.python.announce ， 因 此 必须 确保 
你 的 新 闻 ( NNTP ) 服 务 器 有 这 个 新 闻 组 ,或 者 寻找 你 要 使 用 的 其 他 新 闻 组 。 如果 你 无 法 访问 NNTP 
服务 器 ， 有 几 个 开放 的 服务 器 可 供 任何 人 使 用 。 只 要 在 网 上 搜索 “免费 NNTP 服 务 器 ”就 能 找到 
这 样 的 服务 器 ， 你 可 从 中 选择 一 个 〈nntplib 官 方 文档 中 的 代码 示例 使 用 的 NNTP 服 务 器 为 
news.gmane.org )。 假 设 你 使 用 的 新 闻 服 务 器 为 news.foo.bar ( 这 不 是 真实 存在 的 新 闻 服 务 器 ， 不 
能 使 用 )， 可 像 下 面 这 样 测试 NNTP 服 务 器 : 


>>> from nntplib import NNTP 
>>> server = NNTP('news.foo.bar') 
>>> server.group('comp.lang.python.announce' )[0] 
































注意 ”连接 到 有 些 服 务 器 时 ， 可 能 需要 提供 其 他 用 于 身份 验证 的 参数 。 有 关 构 造 函 数 nntp 的 可 
选 参数 的 详情 ,请 参阅 “Python 库 参 考 手册 ”( https://docs.python.org/library/nntplib.html )。 


最 后 一 行 代码 的 运行 结果 是 一 个 字符 串 ， 这 个 字符 串 以 '211" (意味 着 该 服务 器 上 有 你 请 求 
的 新 闻 组 ) 或 '411'( 意味 着 服务 器 没有 这 样 的 新 闻 组 ) 打头 ， 如 下 所 示 : 

'211 51 1876 1926 comp.lang.python.announce’ 

如 果 返 回 的 字符 串 以 '411 打头 ， 就 应 使 用 新 闻 阅 读 顺 来 查找 可 供 使 用 的 其 他 新 闻 组 〈 还 可 
能 出 现 异常 和 相应 的 错误 消息 )。 如 果 出 现 异 常 ， 可 能 是 你 输入 的 服务 器 名 称 不 对 。 男 一 种 可 能 
性 是 ， 从 创建 服务 器 对 象 到 调用 方法 group 的 时 间 超 过 了 限定 的 时 间 ， 因 为 服务 器 可 能 只 允许 你 
连接 很 短 的 时 间 ， 如 10 秒 钟 。 如 果 你 无 法 快速 输入 这 些 代码 ,可 将 它们 放 在 脚本 中 ， 再 执行 这 个 
脚本 (但 需要 添加 print 语 名 )， 也 可 将 创建 服务 器 和 调用 方法 的 代码 放 在 一 行内 ( 并 用 分 号 分 隔 
它们 )。 


23.4 ”初次 实现 


秉承 原型 设计 的 理念 ， 我 们 直接 来 解决 问题 。 首 先 要 做 的 是 从 NNTP 服 务 器 上 的 新 闻 组 下 载 
最 新 的 消息 。 为 简单 起 见 ， 使 用 print 直 接 将 结果 打印 到 标准 输出 即 可 。 请 先 浏览 本 节 后 面 代码 
清单 23-1 所 示 的 源 代码 ， 并 执行 这 个 程序 看 看 它 是 如 何 工 作 的 ,然后 再 来 研究 实现 细节 。 这 个 程 
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序 的 逻辑 不 太 复 杂 ， 难 点 主要 是 nntplib 的 用 法 。 我 们 将 使 用 单个 NNTP 对 象 , 正如 你 在 前 一 他 看 
到 的 ， 实 例 化 这 个 类 时 ， 只 需 指 定 NNTP 服 务 器 的 名 称 。 你 需要 对 NNTP 实 例 调用 3 个 方法 。 

D group: 将 指定 新 闻 组 设置 为 当前 新 闻 组 ， 并 返回 一 些 有 关 该 新 闻 组 的 信息 ， 其 中 包括 最 
后 一 条 消息 的 编号 。 
口 over: 返回 通过 编号 指定 的 一 组 消息 的 摘要 。 

口 body: 返回 指定 消息 的 正文 。 

使 用 前 面 虚 构 的 服务 器 名 称 ， 可 像 下面 这 样 来 完成 设置 工作 : 


servername = “news.foo.baT' 

group = 'comp.lang.python.announce’ 
server = NNTP(servername) 

howmany = 10 


其 中 变量 howmany 指 定 要 获取 多 少 篇 文章 。 现 在 可 以 选择 新 闻 组 了 。 

resp, count, first, last, name = server.group(group) 

返回 的 值 为 通用 的 服务 器 响应 、 新 闻 组 包含 的 消息 数 、 第 一 条 和 最 后 一 条 消息 的 编号 以 及 新 
闻 组 的 名 称 。 我 们 感 兴趣 的 主要 是 1ast， 将 使 用 它 来 创建 要 获取 的 文章 的 编号 区 间 ， 该 区 间 的 起 
点 为 start = last - howmany + 1， 终 点 为 last。 我 们 将 这 两 个 数字 作为 参数 传递 给 方法 over， 这 
将 返回 一 系列 表示 消息 的 (id，overview)。 然 后 ， 我 们 从 overview 中 提取 主题 ， 并 使 用 ID 从 服务 
需 获 取消 息 正文 。 

消息 正文 行 是 以 字 节 的 方式 返回 的 。 如 果 使 用 默认 编码 UTF-8 进 行 解码 ， 可 能 得 到 非法 的 字 
节 序 列 。 理想 的 做 法 是 提取 编码 信息 , 但 为 简单 起 见 , 我 们 直接 使 用 编码 Latin-1, 它 适 用 于 ASCII 
字 节 ， 且 遇 到 非 ASCII 字 节 时 不 会 报错 。 打 印 所 有 的 文章 后 ， 我 们 调用 server.quit()。 就 这 么 简 
单 。 在 bash 等 UNIX shell 中 ， 可 像 下 面 这 样 运行 这 个 程序 : 

$ python newsagent1.py | less 
通过 使 用 less, 可 每 次 只 阅读 一 篇 文章 。 如 果 没有 这 样 的 分 页 程序 可 用 , 可 修改 程序 的 print 
部 分 , 将 生成 的 文本 存储 到 文件 中 一 一 再 次 实现 时 就 会 这 样 做 ( 有 关 文 件 处 理 的 详细 信息 ， 请 参 
阅 第 11 章 )。 这 个 简单 的 新 闻 收 集 代理 的 源 代码 如 代码 清单 23-1 所 示 。 


代码 清单 23-1 一 个 简单 的 新 闻 收 集 代理 (newsagentl.py ) 


from nntplib import NNTP 

































































































































































servername = 'news.foo.bar’' 

group = “comp.lang.python.announce 

server = NNTP(servername) 

howmany = 10 

resp, count, first, last, name = server.group(group) 


start = last - howmany + 1 


resp, overviews = server.over((start, last)) 
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for id, over in overviews: 
subject = over['subject'] 
resp, info = server.body(id) 
print(subject) 
print('-' * len(subject)) 
for line in info.lines: 

print(line.decode('latin1')) 

print() 





server.quit() 


23.5 ”再 次 实现 


初次 实现 管用 ,但 很 不 灵活 ， 因 为 使 用 它 只 能 从 Usenet 讨 论 组 获取 新 闻 。 在 再 次 实现 中 ， 你 
将 对 代码 稍 作 重 构 以 修复 这 种 问题 。 你 将 把 各 部 分 代码 放 在 类 和 方法 中 ,以 提高 程序 的 结构 化 程 
度 和 抽象 程度 ， 这 样 就 可 用 其 他 类 替换 有 些 部 分 ， 这 比 替换 初次 实现 的 部 分 代码 要 容易 得 多 。 

同样 ， 你 可 能 想 先 浏览 并 执行 代码 清单 23-2 所 示 的 代码 ， 青 来 深入 研究 这 种 实现 的 细节 。 





注意 要 让 代码 清单 23-2 所 示 的 代码 能 够 正常 运行 , 必须 将 变量 clpa_ server 设 置 为 可 用 的 NNTP 
服务 器 。 





那么 需要 哪些 类 呢 ? 我们 按 第 7 章 提出 的 建议 , 快速 浏览 一 些 问 题 描述 中 的 重要 名 词 : 信息 、 
代理 、 新 闻 、 汇 总、 网 络 、 新 闻 源 、 目 的 地 、 前 端 、 后 端 和 主 引 擎 。 这 个 名 词 清单 表明 ， 需 要 下 
面 这些 主 要 的 类 : NewsAgent 、NewsItem、Source 和 Destination。 

各 种 新 闻 源 构成 了 前 端 ， 目 的 地 构成 了 后 端 ， 而 新 闻 代理 位 于 中 间 层 。 

在 这 些 类 中 ， 最 简单 的 是 NewsItem， 它 只 表示 一 段 数据 ， 其 中 包括 标题 和 正文 。 因 此 可 像 下 
面 这 样 实现 它 : 


class NewsItem: 





def init (self, title, body): 


self.title = title 
self.body = body 


为 准确 地 确定 要 从 新 闻 源 和 新 闻 目 的 地 获取 什么 , 先 来 编写 代理 本 身 是 个 不 错 的 主意 ,代理 
必须 维护 两 个 列表 : 源 列 表 和 目的 地 列表 。 添 加 源 和 目的 地 的 工作 可 通过 方法 addsource 和 
addDestination 来 完成 。 


class NewsAgent : 









































def init (self): 
self.sources = [|] 
self.destinations = [] 


def addSource(self, source): 
self.sources.append(source) 
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def addDestination(self, dest): 
self.destinations.append(dest) 


现在 唯一 缺失 的 是 将 新 闻 从 源 分 发 到 目的 地 的 方法 。 在 分 发 期 间 , 新 闻 源 必须 有 一 个 返回 其 
所 有 新 闻 的 方法 , 而 目的 地 必须 有 一 个 接收 所 有 要 分 发 的 新 闻 的 方法 。 分 别 将 这 两 个 方法 命名 为 
getItems 和 receiveItems。 出 于 灵活 性 考虑 , 只 要 求 getItems 返 回 一 个 可 用 于 获取 NewsItem 的 迭代 
器 。 然 而 ， 为 让 目的 地 更 容易 实现 ， 假 设 调用 receiveItems 时 ， 可 将 一 个 序列 作为 参数 。( 这 样 
可 多 次 迭代 这 个 参数 。 例 如 ， 先 创建 目录 再 列 出 各 条 新 闻 。) 根据 这 些 决 策 ，NewsAgent 的 方法 
distribute 将 如 下 : 


def distribute(self): 
items = [] 
for source in self.sources: 
items.extend(source.getItems()) 
for dest in self.destinations: 
dest.receiveItems(items) 


这 个 方法 遍历 所 有 的 新 闻 源 ， 并 创建 一 个 新 闻 列 表 。 然 后 ， 它 遍历 所 有 的 目的 地 ， 并 将 完整 
的 新 闻 列 表 提 供给 每 个 目的 地 。 

现在 余下 的 工作 只 有 创建 表示 新 闻 源 和 目的 地 的 类 。 为 进行 试验 , 可 创建 一 个 简单 的 目的 地 
类 ， 它 像 第 一 个 原型 那样 将 新 闻 打 印 出 来 。 


Class PlainDestination: 












































def receiveItems(self, items): 
for item in items: 
print(item.title) 
print('-' * len(item.title)) 
print(item.body) 
打印 代码 与 前 面相 同 ， 不 同 的 是 你 将 这 些 代码 封装 起 来 了 : 这 些 代码 现在 位 于 目的 地 类 中 ， 
而 不 是 以 硬 编码 的 方式 放 在 主 程序 中 。 在 后 面 的 代码 清单 23-2 中 ,使 用 了 一 个 复杂 些 的 目的 地 类 
(生成 HTML 的 HTMLDestination )。 它 在 PlainDestination 的 基础 上 添加 了 以 下 几 项 功能 。 
口 生成 的 文本 为 HTML。 
口 将 文本 写 入 文件 而 不 是 标准 输出 中 。 
口 除 新 闻 列 表 外 ， 还 创建 了 一 个 目录 。 
就 这 么 简单 。 目 录 是 使 用 链接 到 页 面相 应 部 分 的 超 链接 创建 的 。 为 此 ， 我 们 将 使 用 形 如 <a 
href="#nn">...</a> 的 链接 ( 其 中 nn 为 数字 ), 这 将 链接 到 包含 锚 点 标签 <a name="nn">...</a> (其 
中 nn 是 与 目录 中 相同 的 数字 ) 的 标题 。 目 录 和 主 新 闻 列 表 是 使 用 两 个 不 同 的 for 循 环 创 建 的 ， 最 
终 的 结果 如 图 23-1 所 示 ( 用 到 了 即将 介绍 的 NNTPSource 类 )。 
在 设计 方面 , 我 考虑 过 使 用 新 闻 源 超 类 和 新 闻 目 的 地 超 类 , 但 不 同 的 新 闻 源 和 新 闻 目 的 地 在 
行为 上 没有 任何 共同 之 处 , 因此 使 用 超 类 毫 无 意义 。 只 要 新 闻 源 和 新 闻 目 的 地 类 正确 地 实现 了 必 
要 的 方法 ( getItems 和 receiveItems )，NewsAgent 就 会 感到 满意 。( 这 是 一 个 第 9 章 介 绍 的 理论 的 
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示例 : 与 其 使 用 超 类 ， 不 如 使 用 协议 。) 


AAN Today's News 


区 多 国外 
Today's News 0 





。 SciPy Conference Updates 
® ANN:Leo45blreleased 
® ANN: ConfigObj 4.5.3 Released 

e ANN: RPyC 300RC1 

® OSCON discount code 

® [ANN] Update on Python-based Second Life client library (pyogp) 
e [ANN] Release 0.70.1 of Task Coach 

. 
Enthought Python Distribution 





SciPy Conference Updates 

Greetings, 
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图 23-1 ”自动 生成 的 新 闻 页 面 


创建 NNTPSource 类 时 ， 大 部 分 代码 都 可 从 最 初 的 原型 中 复制 而 来 。 从 代码 清单 23-2 可 知 ， 相 
比 于 最 初 的 原型 ， 主 要 不 同 之 处 如 下 。 

口 代码 封装 在 方法 getItems 中 。 原 来 的 变量 servername 和 group 现 在 是 构造 函数 的 参数 。 另 
外 ， 变 量 howmany 也 变 成 了 构造 函数 的 参数 。 

口 调用 了 decode_header， 它 负责 处 理 报头 字段 ( 如 subject ) 使 用 的 特殊 编码 。 

口 不 是 直接 打印 每 条 新 闻 ， 而 是 生成 NewsItem 对 象 ( 让 getItems 变 成 了 生成 器 )。 

为 证 明 这 种 设计 的 灵活 性 ， 我 们 再 添加 一 个 新 闻 源 可 从 网 页 提取 新 闻 的 新 闻 源 。( 这 是 
使 用 正则 表达 式 实现 的 。 有 关 正 则 表达 式 的 详细 信息 ， 请 参阅 第 10 章 。) SimplewepSource (参见 
代码 清单 23-2 ) 的 构造 函数 将 一 个 URL 和 两 个 正则 表达 式 (一 个 用 于 匹配 标题 ， 男 一 个 用 于 匹配 
正文 ) 作为 参数 。 在 getItems 中 , 它 使 用 正则 表达 式 方法 findall 找 出 所 有 匹配 的 标题 和 正文 ， 并 
使 用 zip 将 它们 组 合 起 来 。 然 后 ， 它 迭代 (title，body) 列 表 ， 并 根据 每 个 (title，body) 生 成 一 个 
NewsItem。 如 你 所 见 ， 添 加 新 的 新 闻 源 (或 目的 地 ) 并 不 太 难 。 

为 让 代码 能 够 正确 地 运行 ， 我 们 实例 化 一 个 代理 以 及 一 些 新 闻 源 和 新 闻 目 的 地 。 在 函数 
runDefaultSetup 中 (这 个 函数 将 在 其 所 属 模块 作为 程序 运行 时 被 调用 )， 实 例 化 了 几 个 这 样 的 
对 象 。 

口 表示 路 透 社 网 站 的 SimpleWebsource， 它 使 用 两 个 简单 的 正则 表达 式 提取 所 需 的 信息 。 















































注意 “路透 社 网 站 网 页 的 HTML 布 局 可 能 发 生变 化 。 在 这 种 情况 下 ， 你 需要 修改 正则 表达 式 。 
当然 ， 从 其 他 网 页 提取 信息 时 ， 也 需要 这 样 做 。 为 此 ， 可 查看 网 页 的 HTML 源 代码 ， 并 
找 出 适用 的 模式 。 
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口 表示 comp.lang.python 的 NNTPSource。 实 例 化 这 个 对 象 时 ， 将 howmany 设 置 成 了 10， 因 此 其 
工作 原理 与 最 初 的 原型 类 似 。 
口 一 个 PlainDestination 对 象 ， 它 打印 收集 的 所 有 新 闻 。 
口 一 个 HTMLDestination 对 象 ， 它 生成 新 闻 页 面 news.html。 

创建 所 有 这 些 对 象 并 将 其 添加 到 NewsAgent 中 后 ， 调 用 了 方法 distribute。 要 运行 这 个 程序 ， 
可 像 下 面 这 样 做 : 


$ python newsagent2.py 


生成 的 页 面 news.html 如 图 23-2 所 示 。 再 次 实现 的 完整 源 代码 如 代码 清单 23-2 所 示 。 
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Betancourt reunited with family 





French-Colombian politician Ingrid Betancourt holds an emotional 
reunion with her children after six years as a hostage. 


Bush to attend Olympic ceremony 


US President George W Bush will attend the opening ceremony of the 
Beijing Olympics, the White House says. 


Google must divulge YouTube log yy 
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图 23-2 ”包含 多 个 新 闻 源 中 新 闻 的 新 闻 页 面 





代码 清单 23-2 一 个 更 灵活 的 新 闻 收 集 代理 ( newsagent2.py ) 


from nntplib import NNTP, decode header 
from urllib.request import urlopen 
import textwrap 

import re 


class NewsAgent: 
可 将 新 闻 源 中 的 新 闻 分 发 到 新 闻 目 的 地 的 对 象 
def _ init (self): 


self.sources = [] 
self.destinations = [] 
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def add source(self, source): 
self.sources.append(source) 


def addDestination(self, dest): 
self.destinations.append(dest) 


def distribute(self): 


mn 


从 所 有 新 闻 源 获取 所 有 的 新 闻 ， 并 将 其 分 发 到 所 有 的 新 闻 目 的 地 
items = [] 
for source in self.sources: 
items.extend(source.get items()) 
for dest in self.destinations: 
dest.receive items(items) 


class NewsItem: 


wn 


由 标题 和 正文 组 成 的 简单 新 闻 

def init (self, title, body): 
self.title = title 
self.body = body 


class NNTPSource: 


从 NNTP 新 闻 组 获取 新 闻 的 新 闻 源 

def init (self, servername, group, howmany): 
self.servername = servername 
self.group = group 
self.howmany = howmany 


def get items(self): 
server = NNTP(self.servername) 
resp, count, first, last, name = server.group(self.group) 
start = last - self.howmany + 1 
resp, overviews = server.over((start, 1ast)) 
for id, over in overviews: 
title = decode header(over['subject']) 
resp, info = server.body(id) 
body = '\n'.join(line.decode('latin') 
for line in info.lines) + '\n\n’ 
yield NewsItem(title, body) 
server.quit() 


class SimpleWebSource: 


使 用 正则 表达 式 从 网 页 提取 新 闻 的 新 闻 源 

def _init (self, url, title pattern, body pattern, encoding="'utf8'): 
self.url = url 
self.title pattern = re.compile(title pattern) 
self.body pattern = re.compile(body pattern) 
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self.encoding = encoding 


def get items(self): 
text = urlopen(self.url).read().decode(self.encoding) 
titles = self.title pattern.findall(text) 
bodies = self.body pattern.findall(text) 
for title, body in zip(titles, bodies): 
yield NewsItem(title, textwrap.fill(body) + '\n') 


class PlainDestination: 


nn 


以 纯 文 本 方式 显示 所 有 新 闻 的 新 闻 目 的 地 
def receive items(self, items): 
for item in items: 
print(item.title) 
print('-' * len(item.title)) 
print(item.body) 


class HTMLDestination: 


以 HTML 格 式 显示 所 有 新 闻 的 新 闻 目 的 地 


def init (self, filename): 
self.filename = filename 


def receive items(self, items): 





out = open(self.filename, 'w') 
print(""" 
<html> 
<head> 
<title>Today's News</title> 
</head> 
<body> 
<h1i>Today's News</h1> 
""", file=out) 


print('<ul>', file=out) 


id=0 
for item in items: 
id += 1 


print(' <li><a href="#{}">{}</a></1i>' 
.format(id, item.title), file=out) 
print('</ul>', file=out) 


id=0 
for item in items: 
id += 1 


print('<h2><a name="{}">{}</a></h2>" 
.format(id, item.title), file=out) 
print('<pre>{}</pre>' .format(item.body), file=out) 


print ( UL 
</body> 





362 第 23 章 项 目 4: 新 闻 汇 总 





</html> 
""", file=out) 


def runDefaultSetup(): 


默认 的 新 闻 源 和 目的 地 设置 ， 请 根据 偏好 进行 修改 


agent = NewsAgent() 


# 从 路 透 社 获取 新 闻 的 SimpleNebSource 对 象 : 

reuters url = 'http://www.reuters.com/news/world" 

reuters title = 工 <h2><a href="[^"]*"\s*>(.*?)</a>' 

reuters body = r'</h2><p>(.*?)</p>" 

reuters = SimpleWebSource(reuters url, reuters title, reuters body) 


agent.add source(reuters) 


# 从 comp.lang.python.announce 获 取 新 闻 的 NNTPSource 对 象 : 
clpa_server = 'news.foo.bar' # 替换 为 实际 服务 器 的 名 称 
clpa_ server = “news.ntnu.no' 

clpa group = 'comp.lang.python.announce" 

clpa_howmany = 10 

clpa = NNTPSource(clpa server, clpa group, clpa_howmany) 


agent.add source(clpa) 
# 添加 纯 文本 目的 地 和 HTML 目 的 地 : 
agent.addDestination(PlainDestination()) 


agent.addDestination(HIMLDestination('news.html')) 


# 分 发 新 闻 : 
agent.distribute() 





if name == "main ': runDefaultSetup() 





23.6 ”进一步 探索 


鉴于 其 可 扩展 性 ， 这 个 项 目 提供 了 很 大 的 探索 空间 。 下 面 是 一 些 建议 。 
口 使 用 第 15 章 讨论 的 屏幕 抓 取 技术 创建 一 个 更 厉害 的 webSource 类 。 

口 创建 一 个 RSSSource， 它 执行 第 15 章 简要 讨论 过 的 RSS 解 析 。 

口 改进 HTMLDestination 生 成 的 HTML 页 面 的 布局 。 

















与 以 前 的 页 面 进行 比较 。 请 研究 标准 库 中 用 于 比较 文件 的 模块 filecmp。 ) 
口 创建 这 个 新 闻 脚 本 的 CGI 版 本 ( 参见 第 15 章 )。 








口 创建 一 个 页 面 监 视 顺 ， 它 在 指定 网 页 发 生变 化 时 生成 新 闻 。( 只 需 下 载 当 前 页 面 ， 并 将 其 























发 送 电子 邮件 的 模块 smtplip。) 
口 添加 指定 要 使 用 哪 种 新 闻 格 式 的 开关 。( 参见 标准 库 模 块 argparse。 ) 





口 创建 一 个 EmailDestination 类 ， 它 通过 电子 邮件 将 新 闻 发 送 给 你 。( 请 参阅 标准 库 中 用 于 
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口 向 新 闻 目 的 地 提供 有 关 新 闻 来 自 何方 的 信息 ， 以 实现 更 漂亮 的 布局 。 

口 尝试 对 新 闻 进行 分 类 ( 为 此 可 在 新 闻 中 搜索 关键 字 )。 

口 创建 一 个 XMLDestination 类 , 它 生 成 可 供 项 目 3 (第 22 章 ) 中 网 站 生成 右 使 用 的 XML 文 件 。 
这 样 你 就 可 以 创建 一 个 新 闻 网 站 了 。 








预告 


前 面 做 了 大 量 文 件 创建 和 处 理工 作 (包括 下 载 必要 的 文件 ) 这 虽然 很 有 用, 但 交互 性 不 强 。 
在 下 一 个 项 目 中 , 我 们 将 创建 一 个 聊天 服务 器 ,让 你 能 够 与 朋友 在 线 聊 天 。 你 甚至 可 对 其 进行 扩 
展 ， 以 创建 自己 的 虚拟 (文本 式 ) 环境 。 





项 目 5: 虚拟 条 话 会 


























在 这 个 项 目 中 ， 我 们 将 做 些 正式 的 网 络 编程 工作 : 编写 一 个 聊天 服务 器 ， 让 人 们 能 够 通过 
网 络 实时 地 聊天 。 使 用 Python 创建 这 种 程序 的 方式 有 很 多 ， 一 种 简单 而 自然 的 方法 是 使 用 第 14 
章 讨论 的 框架 Twisted， 其 核心 是 LineReceiver 类 。 在 本 章 中 ,我 将 只 使 用 标准 库 中 的 异步 网 络 
编程 模块 。 

需要 指出 的 是 ,在 编写 本 书 期 间 ,Python 在 这 方面 好 像 处 于 过 渡 期 。 一 方面 ,有 关 模 块 asyncore 
和 asynchat 的 文档 指出 ， 在 标准 库 中 包含 它们 由 在 向 后 兼容 ， 开 发 新 程序 时 应 使 用 模块 asyncio; 
另 一 方面 ， 有 关 asyncio 的 文档 又 指出 ， 在 标准 库 中 包含 这 个 模块 是 权宜 之 计 ， 未 来 可 能 将 其 删 
除 。 我 将 采取 保守 的 做 法 ， 选 择 使 用 asyncore 和 asynchat。 如 果 你 愿意 ， 可 尝试 使 用 第 14 章 讨论 
的 其 他 方法 (如 分 叉 或 线程 化 )， 甚 至 可 以 使 用 模块 asyncio 重 写 这 个 项 目 。 


24.1 ”问题 描述 


我 们 将 编写 一 个 相对 低级 的 在 线 聊 天 服务 器 。 虽 然 很 多 社交 媒体 和 消息 服务 都 提供 了 这 样 的 
功能 ,但 自己 动手 编写 在 线 聊 天 服务 器 对 深入 学 习 网 络 编程 大 有 神 益 。 假 设 这 个 项 目的 需求 如 下 。 
口 服务 器 必须 能 够 接受 不 同 用 户 的 多 个 连接 。 

口 它 必须 允许 用 户 并 行 地 操作 。 

口 它 必须 能 够 解读 命令 ， 如 say 或 logout。 

口 它 必须 易于 扩展 。 

其 中 网 络 连接 和 程序 的 异步 特征 需要 使 用 特殊 工具 来 实现 。 


24.2 ”有 用 的 工具 


在 这 个 项 目 中 ， 需 要 的 新 工具 只 有 标准 库 模 块 asyncore 及 其 相关 的 模块 asynchat。 我 将 简单 
地 介绍 这 些 模块 ， 有 关 它 们 的 详细 信息 ， 请 参阅 “Python 库 参考 手册 ”。 第 14 章 讨论 过 ， 网 络 程 
序 的 基本 组 件 是 套 接 字 。 可 通过 导入 模块 socket 并 使 用 其 中 的 函数 来 直接 创建 套 接 字 。 既然 如 此 ， 
需要 使 用 asyncore 来 做 什么 呢 ? 

框架 asyncore 让 你 能 够 处 理 多 个 同时 连接 的 用 户 。 想 象 一 下 没有 处 理 并 发 的 特殊 工具 的 情 
形 。 你 启动 服务 器 ， 它 等 待 用 户 连接 。 用 户 连 接 后 ， 它 开始 读 取 来 自用 户 的 数据 ， 并 通过 套 接 字 
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将 结果 提供 给 用 户 。 然 而 ， 如果 已 经 有 用 户 连 接 到 服务 器 ,结果 将 如 何 呢 ? 要 连接 的 用 户 必 须 等 
待 ， 直到 第 一 个 用 户 断 开 连 接 为 止 。 这 在 有 些 情况 下 可 行 , 但 编写 聊天 服务 器 时 ， 关 键 就 是 允许 
多 个 用 户 同时 连接 ， 不 然 用 户 之 间 如 何 聊天 呢 ? 

框架 asyncore 基 于 的 底层 机 制 (第 14 章 所 讨论 模块 select 中 的 函数 select ) 让 服务 器 能 够 依 
次 为 连接 的 所 有 用 户 提供 服务 :不 是 读 取 来 自 一 个 用 户 的 所 有 数据 后 ,再 读 取 下 一 个 用 户 的 数据 ， 
而 只 读 取 其 中 的 部 分 数据 。 另 外 ， 服务 器 只 读 取 有 数据 可 读 取 的 套 接 字 。 这 种 操作 是 在 循环 中 反 
复 进行 的 。 对 写 入 的 处 理 与 此 类 似 。 你 可 使 用 模块 socket 和 select 来 实现 这 种 功能 ， 但 asyncore 
和 asynchat 提 供 了 一 个 很 有 用 的 框架 ， 可 闪 你 处 理 这 些 细节 。( 有 关 实 现 并 行 用 户 连 接 的 其 他 方 
式 ， 请 参阅 14.3 节 。) 


24.3 准备 工作 


首先 ， 你 必须 有 一 台 连 接 到 网 络 ( 如 互联 网 ) 的 计算 机 ， 和 否则 别人 将 无 法 连接 到 你 的 聊天 服 
务 器 。( 可 在 你 自己 的 计算 机 上 连接 到 聊天 服务 器 , 但 这 样 做 没 多 大 意思 。) 要 连接 到 聊天 服务 器 ， 
用 户 必须 知道 你 的 计算 机 的 地 址 (可 以 是 机 器 名 ， 如 foo.bar.baz.com, 也 可 以 是 IP 地 址 )。 另 外 ， 
用 户 必须 知道 聊天 服务 器 使 用 的 端口 号 。 这 种 端口 号 可 在 程序 中 设置 ; 在 本 章 的 代码 中 , 使 用 的 
端口 号 为 5005( 这 是 随便 选择 的 )。 

































































注意 第 14 章 说 过 ， 有 些 端口 号 受到 限制 ， 必 须 有 管理 员 权 限 才 能 使 用 。 一 般 而 言 ， 使 用 大 于 
1023 的 端口 号 就 不 会 有 什么 问题 。 











为 对 聊天 服务 器 进行 测试 , 需要 有 一 个 客户 端 一 一 位 于 用 户 端 的 程序 。 一 个 这 样 的 简单 程序 
是 telnet( 它 基本 上 能 够 让 你 连接 到 任何 套 接 字 服务 器 ), 在 UNIX 中 , 可 从 命令 行 执行 这 个 程序 。 

$ telnet some.host.name 5005 

这 个 命令 连接 到 机 器 some.host.name 的 5005 端 口 。 要 连接 到 运行 命令 telnet 的 机 器 ， 只 需 使 
用 机 器 名 localhost。( 你 可 能 想 使 用 开关 -e 提 供 一 个 转 义 字符 ， 以 确保 可 轻松 地 退出 telnet。 有 
关 这 方面 的 细节 ， 请 参阅 telnet 文 档 。) 

在 Windows 中 ， 可 使 用 提供 了 telnet 功 能 的 终端 模拟 器 ， 如 PuTTY (要 下 载 这 个 软件 并 获取 
有 关 它 的 详细 信息 ， 请 参阅 http://www.chiark.greenend.org.uk/~sgtatham/putty )。 然 而 ， 既 然 要 安 
装 新 软件 ， 不 如 安装 为 聊天 量 身 定制 的 客户 端 程序 。MUD (MUSH、MOO 或 其 他 相关 缩 略 语 ) 
客户 端 " 非 常 适合 用 于 聊天 , 一 个 这 样 的 客户 端 是 TinyFugue ( 要 下 载 这 个 软件 并 获取 有 关 它 的 详 
细 信 息 ， 请 参阅 http:/tinyfugue.sfnet )。 它 主要 用 于 UNIX 中 ,而 且 有 点 老 , 但 这 也 有 其 魅力 所 在 。 
也 有 一 些 用 于 Windows 中 的 客户 端 ， 只 需 在 网 上 搜索 “MUD 客 户 端 ” 之 类 的 关键 字 就 能 找到 。 















































GD MUD 指 的 是 多 用 户 空间 ( Multi-User Dungeon/Domain/Dimension ); MUSH 指 的 是 多 用 户 共 享 幻觉 ( Multi-User 
Shared Hallucination ); MOO 指 的 是 面向 对 象 的 MUD。 
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24.4 ”初次 实现 

我 们 来 将 程序 稍 做 分 解 。 需 要 创建 两 个 主要 的 类 : 一 个 表示 聊天 服务 器 ， 另 一 个 表示 聊天 会 
话 (连接 的 用 户 )。 
24.4.1 ChatServer 类 


为 创建 简单 的 ChatServer 类 , 可 继承 模块 asyncore 中 的 dispatcher 类 。dispatcher 类 基本 上 是 
一 个 套 接 字 对 象 ， 但 还 提供 了 一 些 事 件 处 理 功 能 ， 稍 后 你 将 用 到 它们 。 代 码 清 单 24-1 是 一 个 基本 
的 聊天 服务 器 程序 ( 真 的 很 小 )。 


代码 清单 24-1 一 个 极 简 的 服务 器 程序 


from asyncore import dispatcher 
import asyncore 











class ChatServer(dispatcher): pass 


s = ChatServer() 
asyncore.1loop() 


如 果 运 行 这 个 程序 ， 什 么 都 不 会 发 生 。 要 让 服务 器 做 点 有 趣 的 事情 ， 必 须 调 用 其 方法 
create_socket 来 创建 一 个 套 接 字 , 还 需 调 用 其 方法 bind 和 jisten 将 套 接 字 关联 到 特定 的 端口 并 让 
套 接 字 监 听 到 来 的 连接 (毕竟 这 是 服务 器 要 做 的 事情 )。 另 外 ， 还 需 重 写 事件 处 理 方法 
handle_accept， 让 它 在 服务 器 接受 客户 端 连接 时 做 些 事情 。 最 终 的 程序 如 代码 清单 24-2 所 示 。 


代码 清单 24-2 ”一 个 能 够 接受 连接 的 服务 器 


from asyncore import dispatcher 
import socket, asyncore 






































class ChatServer(dispatcher): 


def handle accept(self): 
conn, addr = self.accept() 
print('Connection attempt from', addr[0]) 


s = ChatServer() 

s.create socket(socket.AF INET, socket.SOCK STREAM) 

s.bind(('', 5005)) 

s.listen(5) 

asyncore.1oop() 

方法 handle accept 调用 self.accept， 以 人 允许 客户 端 连接 。self.accept 返 回 一 个 连接 ( 客户 
端 对 应 的 套 接 字 ) 和 一 个 地 址 ( 有关 发 起 连接 的 机 器 的 信息 )。 方 法 handle_accept 没 有 使 用 返回 
的 连接 来 做 有 用 的 事情 ， 而 只 是 打印 一 条 消息 ， 指 出 有 客户 端 试图 建立 连接 。addr[0] 是 客户 端 
的 IP 地 址 。 
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在 初始 化 服务 器 时 ， 调 用 了 create_socket ， 并 通过 传人 两 个 参数 指定 了 要 创建 的 套 接 字 类 
型 。 虽 然 也 可 使 用 其 他 的 类 型 ， 但 通常 都 使 用 这 里 使 用 的 类 型 。 对 方法 bind 的 调用 将 服务 器 关联 
到 特定 的 地 址 〈 主机 名 和 端口 )。 这 里 指定 的 主机 名 为 空 (一 个 空 字 符 串 ， 意 味 着 localhost， 用 
更 专业 一 点 的 话说 就 是 “当前 机 器 的 所 有 接口 ” )， 而 端口 号 为 9005。 对 方法 Listen 的 调用 让 服务 
器 监听 连接 ; 它 还 将 在 队列 中 等 待 的 最 大 连接 数 指定 为 S。 最 后 ， 像 前 面 一 样 调用 asyncore.loop 
来 启动 服务 器 的 监听 循环 。 

这 个 服务 器 实际 上 是 管用 的 。 请 尝试 运行 它 ， 再 使 用 你 选择 的 客户 端 连 接 到 它 。 客 户 端 连接 
将 立即 断 开 ， 而 服务 器 将 打印 如 下 内 容 : 


Connection attempt from 127.0.0.1 


如 果 不 是 从 服务 器 所 在 的 机 器 连接 到 它 ，IP 地 址 将 不 同 。 要 停止 服务 器 ， 只 需 按 下 相应 的 键 
盘 快 捷 键 : 在 UNIX 中 为 CtrlIHC， 而 在 Windows 中 为 CtrlHBreak。 
使 用 键盘 快捷 键 关闭 服务 器 将 显示 栈 跟踪 。 为 避免 出 现 这 种 情况 ， 可 将 循环 放 在 try/except 
语句 中 。 添 加 一 些 清理 代码 后 ， 这 个 基本 服务 器 如 代码 清单 24-3 所 示 。 


代码 清单 24-3 ”包含 一 些 清理 代码 的 基本 服务 器 


from asyncore import dispatcher 
import socket, asyncore 










































































PORT = 5005 
class ChatServer(dispatcher): 


def init (self, port): 
dispatcher. init (self) 
self.create socket(socket.AF INET, socket.SOCK STREAM) 
self.set reuse addr() 
self.bind(('', port)) 
self.listen(5) 





de 


her 


handle accept(self): 
conn, addr = self.accept() 
print('Connection attempt from', addr[0]) 


if name == main ': 
s = ChatServer(PORT) 
try: asyncore.1oop() 
except KeyboardInterrupt: pass 


这 里 调用 了 set_reuse_addr, 让 你 能 够 重用 原来 的 地 址 ( 具体 地 说 是 端口 号 ), 即便 未 妥善 关 
闭 服务 器 亦 如 此 。 如 果 不 调用 set_reuse_addr， 可 能 需要 等 待 一 段 时 间 才 能 重启 服务 器 ， 或 者 在 
服务 器 甬 溃 后 使 用 不 同 的 端口 号 。 这 是 因为 程序 可 能 通知 操作 系统 它 不 再 使 用 这 个 端口 。 


























24.4.2 ChatSession 类 





基本 的 Chatserver 不 是 很 有 用 。 不 应 对 连接 企图 置 若 同 闻 ， 而 应 为 每 个 连接 创建 一 个 新 的 
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dispatcher 对 象 。 然 而 ， 这 些 对 象 的 行为 与 用 作 主 服务 器 的 对 象 不 同 ， 它 们 不 在 端口 上 监听 到 来 
的 连接 ,而 是 已 经 连接 到 特定 的 客户 端 。 它们 的 主要 任务 是 收集 来 自 客户 端的 数据 (文本 ) 并 做 
出 响应 。 你 可 自己 实现 这 种 功能 ， 方法 是 从 dispatcher 派 生出 一 个 类 ， 并 重 写 各 种 方法 ,但 所 幸 
有 一 个 模块 奉 你 完成 了 其 中 很 大 一 部 分 工作 ， 它 就 是 asynchat。 

asynchat 有 点 名 不 副 实 ， 它 并 非 为 我 们 要 编写 的 流 (连续 ) 式 聊 天 应 用 程序 而 专门 设计 的 。 
[asynchat 中 的 chat 指 的 是 聊天 式 (命令 -响应 ) 协议 。] 模块 asynchat 中 有 一 个 async_chat 类 ， 其 
优点 是 隐藏 了 大 部 分 基本 的 读 写 操作 ， 因 为 这 些 操作 实现 起 来 可 能 有 点 难 。 要 让 async_chat 发 挥 
作用 ， 只 需 重 写 两 个 方法 一 一 collect incoming data 和 found terminator。 每 当 从 套 接 字 读 取 
些 文本 后 ， 都 将 调用 collect incoming data; 而 读 取 到 结束 符 时 将 调用 found_terminator。 在 这 
里 , 结束 符 为 换行 符 。( 你 需要 在 初始 化 时 调用 set_terminator 来 将 结束 符 告 知 async_chat 对 和 象 。) 

更 新 后 的 程序 ( 包含 ChatSession 类 ) 如 代码 清单 24-4 所 示 。 


代码 清单 24-4 包含 ChatSession 类 的 服务 器 程序 


from asyncore import dispatcher 
from asynchat import async chat 
import socket, asyncore 










































































PORT = 5005 
class ChatSession(async chat): 


def init (self, sock): 
async chat. init (self, sock) 
self.set terminator("\r\n") 
self.data = [] 


def collect incoming data(self, data): 
self.data.append(data) 


def found terminator(self): 
line = ''.join(self.data) 
self.data = [] 
# 使 用 line 做 些 事情 …… 
print(line) 








class ChatServer(dispatcher): 


def init (self, port): dispatcher. init (self) 
self.create socket(socket.AF INET, socket.SOCK STREAM) 
self.set reuse addr() 
self.bind(('', port)) 
self.listen(5) 
self.sessions = [] 


de 


ot 


handle accept(self): 
conn, addr = self.accept() 
self.sessions.append(ChatSession(conn)) 
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if name == main 
s = ChatServer(PORT) 
try: asyncore.1oop() 
except KeyboardIinterrupt: print() 


对 于 这 个 新 版 本 ， 有 几 点 需要 说 明 。 

口 调用 方法 set terminator 将 行 结束 符 设置 成 了 "\r\n"， 这 是 网 络 协议 中 常用 的 行 结束 符 。 

口 ChatSession 对 象 将 已 读 取 的 数据 存储 在 字符 串 列表 data 中 。 读 取 更 多 数据 后 ， 将 自动 调 
用 collect_incoming_data, 而 这 个 方法 只 是 将 这 些 数据 附加 到 列表 data 末 尾 。 使 用 字符 串 
列表 来 存储 数据 、 然 后 使 用 字符 串 方 法 join 来 合并 这 些 字符 串 是 一 个 常用 的 成 例 ( 在 较 旧 
的 Python 版 本 中 ， 这 种 做 法 的 效率 比 不 断 将 字符 串 相 加 更 高 )。 在 较 新 的 Python 版 本 中 ， 
完全 可 以 将 += 用 于 字符 串 。 

口 遇 到 结束 符 时 将 调用 方法 found terminator。 当 前 ， 这 个 方法 的 实现 通过 合并 数据 项 来 创 
建 一 行 ， 然 后 将 self.data 重 置 为 空 列 表 。 然 而 ， 只 是 将 这 行 打印 出 来 ， 而 没有 使 用 它 来 
做 任何 有 用 的 事情 。 

口 ChatServer 存 储 了 一 个 会 话 列表 。 

口 ChatServer 的 方法 handle accept 现 在 创建 一 个 新 的 ChatSession 对 象 ， 并 将 其 附加 到 会 话 
列表 末尾 。 

请 尝试 运行 这 个 服务 器 , 并 通过 使 用 多 个 客户 端 连接 到 它 。 每 当 你 在 客户 端 中 输入 一 行内 容 
时 ,这些 内 容 都 将 在 服务 器 所 在 的 终端 打印 出 来 。 这 意味 着 这 个 服务 器 能 够 同时 处 理 多 个 连接 。 
至 此 ， 唯 一 缺失 的 功能 是 让 客户 端 能 够 看 到 其 他 人 的 发 言 ! 


24.4.3 ”整合 起 来 


要 让 原型 成 为 简单 而 功能 完整 的 聊天 服务 器 ,还 需 添 加 一 项 主要 功能 :将 用 户 所 说 的 内 容 ( 他 
们 输入 的 每 一 行 ) 广播 给 其 他 用 户 。 要 实现 这 种 功能 ， 可 在 服务 器 中 使 用 一 个 简单 的 for 循 环 来 
遍历 会 话 列 表 ， 并 将 内 容 行 写 人 每 个 会 话 。 要 将 数据 写 人 async_chat 对 象 ， 可 使 用 方法 push。 

这 种 广播 行为 也 带 来 了 一 个 问题 : 客户 端 断 开 连接 后 ， 你 必须 确保 将 其 从 会 话 列表 中 删除 。 
为 此 ， 可 重 写 事件 处 理 方法 handle_close。 第 一 个 原型 的 最 终 版 本 如 代码 清单 24-5 所 示 。 


代码 清单 24-5 一 个 简单 的 聊天 服务 器 (simple_chat.py ) 


from asyncore import dispatcher 
from asynchat import async chat 
import socket, asyncore 






















































































PORT = 5005 
NAME = “TestChat 


class ChatSession(async chat): 


一 个 负责 处 理 服 务 器 和 单个 用 户 间 连接 的 类 
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def init (self, server, sock): 
# 标准 的 设置 任务 : 

async_chat. init (self, sock) 
self.server = server 

self.set terminator("\r\n") 
self.data = [ 
# 问候 用 户 : 
self.push('Welcome to %s\r\n' % self.server.name) 


def collect incoming data(self, data): 
self.data.append(data) 











def found terminator(self): 
如 果 遇 到 结束 符 ， 就 意味 着 读 取 了 一 整 行 ， 
因此 将 这 行内 容 广 播 给 每 个 人 


nn 





line = ''.join(self.data) 
self.data = [] 
self.server.broadcast(line) 


def handle close(self): 
async_chat.handle close(self) 
self.server.disconnect(self) 


class ChatServer(dispatcher): 


一 个 接受 连接 并 创建 会 话 的 类 。 它 还 负责 向 这 些 会 话 广播 


mn 


def init (self, port, name): 

# 标准 的 设置 任务 : 

self.create socket(socket.AF INET, socket.SOCK STREAM) 
self.set reuse addr() 

self.bind(('', port)) 

self.listen(5) 

self.name = name 

self.sessions = [] 


def disconnect(self, session): 
self.sessions.remove(session) 








def broadcast(self, line): 
for session in self.sessions: 
session.push(line + '\r\n') 


def handle accept(self): 
conn, addr = self.accept() 
self.sessions.append(ChatSession(self, conn)) 
if name == main 
s = ChatServer(PORT, NAME) 
try: asyncore.1oop() 
except KeyboardInterrupt: print() 
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24.5 ”再 次 实现 


第 一 个 原型 虽然 是 个 管用 的 聊天 服务 器 , 但 其 功能 很 有 限 , 最 明显 的 缺陷 是 没 法 知道 每 句 话 
都 是 谁 说 的 。 另 外 ， 它 也 不 能 解释 命令 ( 如 say 或 logout )， 而 最 初 的 规范 要 求 提 供 这 样 的 功能 。 
有 鉴于 此 , 需要 添加 对 身份 (每 个 用 户 都 有 唯一 的 名 字 ) 和 命令 解释 的 支持 ， 同 时 必须 让 每 个 会 
话 的 行为 都 依赖 于 其 所 处 的 状态 ( 刚 连接 、 已 登录 等 )。 添 加 这 些 功能 时 ， 必 须 确保 程序 是 易于 
扩展 的 。 


24.5.1 基本 的 命令 解释 功能 


我 将 演示 如 何 模 仿 标 准 库 模块 cnd 中 cmd 类 的 命令 解释 功能 。( 遗憾 的 是 ， 你 不 能 直接 使 用 这 
个 类 ， 因 为 它 只 能 用 于 处 理 sys.stdin 和 sys.stdout， 而 你 处 理 的 是 多 个 流 。) 你 需要 一 个 函数 或 
方法 ， 用 于 处 理 用 户 输入 的 单行 文本 。 这 个 方法 应 提取 第 一 个 单词 (命令 )， 并 根据 这 个 单词 调 
用 相应 的 方法 。 例 如 ， 如 果 文 本 行 像 下 面 这 样 : 

say Hello, world! 

将 导致 这 个 函数 调用 下 面 的 方法 : 

do_say('Hello, world!') 

do_say 还 可 能 将 会 话 本 身 作为 参数 ， 以 便 知 道 是 谁 在 说 话 。 

下 面 是 一 种 简单 的 实现 ， 其 中 还 包含 一 个 处 理 未 知 命令 的 方法 。 


class CommandHandler: 































































































类 似 于 标准 库 中 cmd.Cmd 的 简单 命令 处 理 程序 


def unknown(self, session, cmd): 
session.push('Unknown command: {}s\r\n' .format(cmd) ) 


def handle(self, session, line): 
if not line.strip(): return 
parts = line.split(' ', 1) 
cmd = parts[0] 
try: line = parts[1].strip() 
except IndexError: line = "" 
meth = getattr(self, 'do_' + cmd, None) 
try: 





meth(session, line) 
except TypeError: 
self.unknown(session, cmd) 


在 这 个 类 中 ， 像 第 20 章 的 标记 项 目 那 样 使 用 了 getattr。 实 现 基 本 的 命令 处 理 功 能 后 ， 需 要 
定义 一 些 命令 ,并 根据 会 话 的 当前 状态 决定 哪些 命令 可 用 ( 以 及 它们 将 做 什么 )。 如 何 表示 会 话 
的 状态 呢 ? 
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24.5.2 ”聊天 室 

每 种 状态 都 可 用 一 个 自 定义 的 命令 处 理 程序 表示 , 很 容易 将 此 与 标准 的 聊天 室 表 示 法 (MUD 
中 的 地 点 ) 结合 起 来 使 用 。 每 个 聊天 室 都 是 一 个 包含 特定 命令 的 CommandHandler。 另 外 ， 它 还 应 
记录 聊天 室内 当前 有 哪些 用 户 (会 话 )。 下 面 是 一 个 通用 的 超 类 ， 所 有 的 聊天 室 都 将 继承 它 。 


class EndSession(Exception): pass 











class Room(CommandHandler): 


可 包含 一 个 或 多 个 用 户 (会 话 ) 的 通用 环境 。 
它 负责 基本 的 命令 处 理 和 广播 


def init (self, server): 
self.server = server 
self.sessions = [ 


def add(self, session): 
self.sessions.append(session) 


def remove(self, session): 
self.sessions.remove(session) 








def broadcast(self, line): 
for session in self.sessions: 
session.push(line) 





def do logout(self, session, line): 
raise EndSession 


除 基本 方法 add 和 remove 外 ， 它 还 包含 方法 broadcast， 这 个 方法 对 聊天 室内 的 所 有 用 户 (会 
话 ) 调用 push。 这 个 类 还 以 方法 do_1logout 的 方式 定义 了 一 个 命令 一 一 logout。 这 个 方法 引发 异常 
EndSession， 而 这 种 异常 将 在 较 高 的 层级 ( found_terminator 中 ) 处理 。 











24.5.3 ”登录 和 退出 聊天 室 


除 表 示 和 常规 聊 天 室 ( 这 个 项 目 中 只 有 一 个 这 样 的 聊天 室 ) 之 外 ，Room 的 子 类 还 可 表示 其 他 状 
态 ， 这 正 是 你 创建 Room 类 的 意图 所 在 。 例 如 ， 用 户 刚 连接 到 服务 器 时 ， 将 进入 专用 的 LoginRoom 
(其 中 没有 其 他 用 户 )。LoginRoom 在 用 户 进 入 时 打印 一 条 欢迎 消息 (这 是 在 方法 add 中 实现 的 )。 
它 还 重 写 了 方法 unknown， 使 其 让 用 户 登 录 。 这 个 类 只 支持 一 个 命令 ， 即 命令 login， 这 个 命令 检 
查 用 户 名 是 否 是 可 接受 的 (不 是 空 字符 串 ， 且 未 被 其 他 用 户 使 用 )。 

LogoutRoom 要 简单 得 多 ， 它 唯一 的 职责 是 将 用 户 的 名 字 从 服务 器 中 删除 ( 服务 器 包含 存储 会 
话 的 字典 users )。 如 果 用 户 名 不 存在 ( 因为 用 户 从 未 登录 )， 将 忽略 因此 而 引发 的 KeyError 异 常 。 

有 关 这 两 个 类 的 源 代码 ， 请 参阅 本 章 后 面 的 代码 清单 24-6。 
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注意 虽然 服务 器 中 的 字典 users 存 储 了 指向 所 有 会 话 的 引用 ,但 根本 没有 从 中 获取 会 话 。 字 典 
users 只 用 于 记录 哪些 用 户 名 被 占用 。 然 而 ， 我 没有 将 用 户 名 关联 到 随便 选择 的 值 ( 如 
True )， 而 是 将 其 关联 到 相应 的 会 话 。 虽 然 现在 这 样 做 没什么 用 处 ， 但 在 以 后 的 程序 版 本 
中 可 能 发 挥 作 用 (例如 ， 让 用 户 能 够 发 私信 时 )。 也 可 采用 另 一 种 做 法 ， 将 会 话 存储 在 一 
个 集合 或 列表 中 。 


24.5.4” 主 聊天 室 


主 聊天 室 也 重 写 了 方法 add 和 remove。 在 方法 add 中 ， 它 广播 一 条 消息 ， 指 出 有 用 户 进入 ， 同 
时 将 用 户 的 名 字 添 加 到 服务 器 中 的 字典 users 中 。 方 法 remove 广 播 一 条 消息 ， 指 出 有 用 户 离开 。 
除 这 些 方法 外 ，ChatRoom 类 ( 主 聊 天 室 ) 还 实现 了 三 个 命令 。 

口 命令 say ( 由 方法 do_say 实 现 ) 广播 一 行内 容 ， 并 在 开头 指出 这 行内 容 是 哪 位 用 户 说 的 。 

口 命令 look ( 由 方法 do_look 实 现 ) 告诉 用 户 聊天 室内 当前 有 哪些 用 户 。 

口 命令 who ( 由 方法 do_who 实 现 ) 告诉 用 户 当 前 有 哪些 用 户 登 录 了 。 在 这 个 简单 的 服务 器 中 ， 
命令 look 和 who 的 作用 相同 ， 但 如 果 你 对 其 进行 扩展 ， 使 其 包含 多 个 聊天 室 ， 这 两 个 命令 
的 作用 将 有 所 区 别 。 

有 关 这 个 类 的 源 代码 ， 请 参阅 本 章 后 面 的 代码 清单 24-6。 


24.5.5 ”新 的 服务 器 


至 此 已 介绍 了 大 部 分 功能 。 对 于 ChatSession 和 ChatSserver 类 ， 所 做 的 主要 改进 如 下 。 
口 ChatSession 新 增 了 方法 enter， 用 于 进入 新 的 聊天 室 。 
口 ChatSession 的 构造 函数 使 用 了 LoginRoom。 
口 方法 handle_close 使 用 了 LogoutRoom。 
口 ChatServer 的 构造 哨 数 新 增 了 字典 属性 users 和 ChatRoom 属 性 main_room。 

另外 请 注意 ，handle_accept 不 再 将 新 的 ChatSession 添 加 到 会 话 列表 中 ， 因 为 现在 会 话 由 聊 
天 室 管理 。 












































注意 一 般 而 言 ， 如 果 你 实例 化 一 个 对 象 ( 就 像 handle accept 中 的 ChatSession )， 而 不 将 其 赋 
给 变量 或 添加 到 容器 中 ， 它 将 丢失 并 可 能 被 当 作 垃圾 收集 (这 意味 着 它 将 完全 消失 )。 由 
于 所 有 的 dispatcher 都 由 asyncore 处 理 (引用 )， 而 async _ chat 是 一 个 dispatcher 子 类 ， 因 
此 在 这 里 不 是 问题 。 


聊天 服务 器 的 最 终 版 本 如 代码 清单 24-6 所 示 。 为 方便 你 参考 ， 表 24-1 列 出 了 可 用 的 命令 。 
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代码 清单 24-6 


from asyncore import dispatcher 
from asynchat import async chat 


import 


PORT = 
NAME = 


socket, asyncore 


5005 
'TestChat’ 


class EndSession(Exception): pass 


class C 


wn 


类 似 于 标准 库 中 cmd.Cmd 的 简单 命令 处 理 程序 


nn 


ommandHandler: 


def unknown(self, session, cmd): 


def 


' 响 应 未 知 命令 ， 


一 个 更 复杂 些 的 聊天 服务 器 〈chatserverpy ) 


session.push('Unknown command: {}s\r\n'.format(cmd)) 


handle(self, session, line): 
' 处 理 从 指定 会 话 收 到 的 行 " 
站 


if not line.strip 
# 提取 命令 : 

parts = line.spli 
cmd = parts[0] 
try: line = parts 
except IndexError: 


# 党 试 查找 处 理 程 序 : 





meth = getattr(sel 
try: 


except TypeError: 





return 


t(' ', 1) 


1].strip() 
line = "" 


f 


» 


'do ， 


假定 它 是 可 调用 的 
meth(session, line) 


+ cmd, None) 


self.unknown(session, cmd) 


class Room(CommandHandler): 


可 能 包含 一 个 或 多 个 用 户 (会 话 ) 的 通用 环境 。 


def init (self, server): 


self.server = server 


self.sessions = [] 


def add(self, session): 
' 有 会 话 (用 户 ) 进入 聊天 室 ' 
self.sessions.append(session) 


def remove(self, session): 
' 有 会 话 (用 户 ) 离开 聊天 室 ' 
self.sessions.remove(session) 


如 果 是 不 可 调用 的 ， 就 响应 未 知 命令 : 


它 负责 基本 的 命令 处 理 和 广播 


24.5 再 次 实现 375 





def broadcast(self, line): 
' 将 一 行内 容 发 送 给 聊天 室内 的 所 有 会 话 ' 
for session in self.sessions: 
session.push(line) 


def do logout(self, session, line): 
' 响 应 命令 logout' 
raise EndSession 


class LoginRoom(Room): 


为 刚 连接 的 用 户 准 备 的 聊天 室 


def add(self, session): 
Room.add(self, session) 
# 用 户 进 入 时 ， 向 他 /她 发 出 问候 : 
self.broadcast('Welcome to {}\r\n'.format(self.server.name)) 


def unknown(self, session, cmd): 
# 除 login 和 logout 外 的 所 有 命令 都 会 
# 导致 系统 显示 提示 消息 : 
session.push('Please log in\nUse "login <nick>"\r\n') 


def do login(self, session, line): 
name = line.strip() 
# 确保 用 户 输入 了 用 户 名 : 
if not name: 
session.push('Please enter a name\r\n') 
# 确保 用 户 名 未 被 占用 : 
elif name in self.server.users: 
session.push('The name "{}" is taken.\r\n'.format(name)) 
session.push('Please try again.\r\n') 
else: 
# 用 户 名 没 问 题 ， 因 此 将 其 存储 到 会 话 中 并 将 用 户 移 到 主 聊 天 室 
session.name = name 
session.enter(self.server.main room) 











class ChatRoom(Room): 


为 多 个 用 户 相互 聊天 准备 的 聊天 室 


def add(self, session): 
# 告诉 所 有 人 有 新 用 户 进入 : 
self.broadcast(session.name + ' has entered the room.\r\n') 
self.server.users[session.name] = session 
super().add(session) 


def remove(self, session): 
Room.remove(self, session) 
# 告诉 所 有 人 有 用 户 离开 : 
self.broadcast(session.name + ' has left the room.\r\n') 
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def do say(self, session, line): 
self.broadcast(session.name + ': ' + line + '\r\n') 


def do look(self, session, line): 
' 处 理 命令 look， 这 个 命令 用 于 查看 聊天 室 里 都 有 谁 " 
session.push(other.name + '\r\n') 








def do who(self, session, line): 
"处 理 命令 Who， 这 个 命令 用 于 查看 谁 已 登录 
session.push('The following are logged in:\r\n') 
for name in self.server.users: 

session.push(name + '\r\n') 


class LogoutRoom(Room): 


为 单个 用 户 准 备 的 聊天 室 ， 仅 用 于 将 用 户 名 从 服务 器 中 删除 


def add(self, session): 
# 将 进入 LogoutRoom 的 用 户 删 除 
try: del self.server.users[session.name] 
except KeyError: pass 


class ChatSession(async chat): 


单个 会 话 ， 负 责 与 单个 用 户 通信 


def init (self, server, sock): 
super(). init (sock) 
self.server = server 

self.set terminator("\r\n") 
self.data = [] 

self.name = None 

# 所 有 会 话 最 初 都 位 于 LoginRoom 中 : 
self.enter(LoginRoom(server)) 





def enter(self, room): 
# 自己 从 当前 聊天 室 离开 ， 并 进入 下 一 个 聊天 室 
try: cur = self.room 
except AttributeError: pass 
else: cur.remove(self) 
self.room = room 
room.add(self) 





def collect incoming data(self, data): 
self.data.append(data) 


def found terminator(self): 
line = ''.join(self.data) 
self.data = [] 
try: self.room.handle(self, line) 
except EndSession: self.handle close() 
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def handle close(self) : 
async chat.handle close(self) 
self.enter(LogoutRoom(self.server)) 


class ChatServer(dispatcher): 


只 有 一 个 聊天 室 的 聊天 服务 器 


def init (self, port, name): 
super(). init () 
self.create socket(socket.AF INET, socket.SOCK STREAM) 
self.set reuse addr() 
self.bind(('', port)) 
self.listen(5) 
self.name = name 
self.users = {} 
self.main room = ChatRoom(self) 








def handle accept(self): 
conn, addr = self.accept() 
ChatSession(self, conn) 
if name == ”main ': 
s = ChatServer(PORT, NAME) 
try: asyncore.1oop() 
except KeyboardIinterrupt: print() 





表 24-1 ”聊天 服务 器 支持 的 命令 





























命 令 可 在 什么 地 方 使 用 描 述 
login name LoginRoom 用 于 登录 服务 器 
logout 所 有 聊天 室 用 于 退出 服务 器 
say statement 主 聊 天 室 用 于 说 话 
look 主 聊 天 室 用 户 确定 聊天 室内 还 有 谁 
who 主 聊 天 室 用 户 确定 谁 登录 了 服务 器 
































图 24-1 是 一 个 聊天 过 程 示例 。 在 这 个 示例 中 ， 服 务 器 是 使 用 如 下 命令 启动 的 : 
python chatserver.py 


而 用 户 dilbert 是 使 用 如 下 命令 连接 到 服务 器 的 ; 


telnet localhost 5005 
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国 Telnet localhost -lelxl| 
Welcome to TestChat < 
login dilbert 

look 

The following are in this room: 
magnus 

dilbert 

say HI，magnus! 

dilbert: Hi, magnust! 

magnus: Hi, there, dilbert. 

Nice weather we're having... 

Unknown command: Nice 

say Nice weather we're having... 
dilbert: Nice weather we're having... 
magnus: Yup. 























A | 





图 24-1 一 个 聊天 过 程 示 例 


24.6 ”进一步 探索 


对 于 本 章 介 绍 的 基本 服务 器 ， 可 在 很 多 方面 进行 扩展 和 改进 。 

口 你 可 创建 包含 多 个 聊天 室 的 版 本 ， 还 可 按 自 己 的 想法 扩展 命令 集 。 

口 你 可 能 想 让 这 个 程序 只 能 识别 某 些 命令 ( 如 login 或 1ogout ), 并 将 其 他 文本 都 视 为 聊天 内 

容 ， 这 样 就 不 需要 命令 say 了 。 

口 你 可 在 所 有 命令 前 加 上 特殊 字符 ( 如 和 斜 杜 ， 让 命令 类 似 于 /login 或 /logout )， 并 将 不 以 特 

殊 字符 打头 的 内 容 都 视 为 聊天 内 容 。 

口 你 可 能 想 创建 自己 的 GUI 客户 端 , 但 这 比 想象 的 要 难 些 。GUI 工 具 包 提 供 了 一 个 事件 循环 ， 
而 要 与 服务 器 通信 ， 可 能 还 需要 一 个 事件 循环 。 为 让 这 些 事件 循环 相互 协作 ， 你 可 能 需 
要 使 用 线程 化 。 有 关 如 何 实现 线程 化 的 简单 示例 ( 各 个 线程 不 能 直接 访问 其 他 线程 的 数 
据 )， 请 参阅 第 28 章 。 









































预告 


至 此 ， 你 创建 了 自己 的 聊天 服务 器 。 在 下 一 个 项 目 中 ,将 介绍 另 一 种 类 型 的 网 络 编程 一 一 
CGI。 它 是 很 多 Web 应 用 使 用 的 底层 机 制 ( 这 在 第 15 章 讨论 过 )。 具体 地 说 ,下 一 个 项 目 将 使 用 这 
种 技术 来 实现 远程 编辑 , 让 多 个 用 户 能 够 合作 编写 同一 个 文档 。 你 甚至 可 以 使 用 它 来 远程 编辑 自 
己 的 网 页 。 

















项 目 6: 使 用 CGI 进行 远程 
编辑 











本 章 的 项 目 使 用 第 15 章 详细 讨论 过 的 CGI 进行 远程 编辑 一 一 在 另 一 台 机 器 上 通过 Web 来 编辑 
文档 。 这 在 协作 系统 〈 群 件 ) 中 很 有 用 ， 如 多 人 协作 编辑 一 个 文档 。 你 还 可 使 用 它 来 更 新 网 页 。 














25.1 问题 描述 


你 在 一 人 台 机 右上 存储 了 一 个 文档 , 希望 能 够 在 男 一 台 机 器 上 通过 Web 来 编辑 它 。 这 让 多 个 用 
户 能 够 协作 编辑 一 个 文档 ， 且 无 需 使 用 FTP 或 类 似 的 文件 传输 技术 ， 也 无 需 操 心 同步 多 个 副本 的 
问题 。 要 编辑 文件 ， 只 要 有 Web 浏 览 絮 就 行 。 























注意 ”这 种 远程 编辑 是 维基 系统 ( 参见 http://en.wikipedia.org/wiki/Wiki ) 的 核心 机 制 之 一 


具体 地 说 ， 这 个 系统 应 满足 如 下 需求 。 
口 能 够 以 普通 网 页 的 方式 显示 文档 。 25 
口 能 够 在 Web 表 单 的 文本 区 域内 显示 文档 。 
口 用 户 能 够 保存 表单 中 的 文本 。 
口 程序 应 使 用 密码 对 文档 进行 保护 。 
程序 应 易于 扩展 ， 以 支持 对 多 个 文档 进行 编辑 。 
你 将 看 到 , 这 些 需 求 都 很 容易 实现 ,只 需 使 用 python 标准 库 模块 cgi 并 编写 一 些 简单 的 Python 
代码 即 可 。 然 而 请 注意 ， 使 用 这 个 应 用 程序 采用 的 技术 ， 可 为 任何 Python 程 序 提供 Web 界 面 ， 因 
此 这 些 技术 很 有 用 。 


25.2 ”有 用 的 工具 


第 15 章 讨论 过 ， 编 写 CGI 程 序 时 ,使 用 的 主要 工具 包括 模块 cgi 以 及 用 于 调试 的 模块 cgitb。 
有 关 这 方面 的 详细 信息 ， 请 参阅 第 15 章 。 
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25.3 准备 工作 


在 15.2 节 中 详细 介绍 了 能 够 通过 Web 访 问 CGI 脚 本 所 需 的 步 又 ， 你 只 需 按 这 些 步骤 做 就 行 。 























25.4 ”初次 实现 


初次 实现 基于 代码 清单 15-7 所 示 问 候 脚 本 的 基本 结构 。 就 这 个 原型 而 言 ， 只 需 做 些 文件 处 理 
工作 即 可 。 

脚本 要 发 挥 作 用 ， 必 须 将 修改 后 的 文本 存盘 。 另 外 ， 表 单 应 比 问 候 脚 本 ( 代码 清单 15-7 所 示 
的 simple3.cgi ) 中 的 表单 大 些 ， 还 应 将 文本 框 改 为 文本 区 域 。 同 时 ， 应 使 用 CGI 方 法 P0ST， 而 不 
是 默认 的 GET 方 法 。( 通常 ， 要 提交 大 量 数据 时 ， 应 使 用 P0ST 方 法 。) 

这 个 程序 的 逻辑 大 体 如 下 。 

(1) 获取 CGI 参数 text ( 默认 为 数据 文件 的 当前 内 容 )。 

(2) 将 text 的 值 保存 到 数据 文件 中 。 

(3) 打印 表单 ， 其 中 的 文本 区 域 包含 text 的 值 。 

要 让 脚本 能 够 写 人 数据 文件 ， 必 须 先 创 建 这 样 的 文件 ( 如 simple_edit.dat )。 这 个 文件 可 以 为 
空 ， 也 可 包含 初始 文档 ( 纯 文 本 文件 ， 其 中 可 能 包含 一 些 标记 ， 如 XML 或 HTML )。 接 下 来 ， 必 
须 按 第 15 章 介绍 的 设置 权限 ， 让 任何 人 都 可 写 入 这 个 文件 。 最 终 的 代码 如 代码 清单 25-1 所 示 。 


代码 清单 25-1 一 个 简单 的 Web 编 辑 器 (simple edit.cgi ) 
#1/usr/bin/env python 



























































import cgi 
form = cgi.FieldStorage() 


text = form.getvalue('text', open('simple edit.dat').read()) 
f = open('simple edit.dat', 'w') 

f.write(text) 

f.close() 


print("""Content-type: text/html 


<html> 
<head> 
<title>A Simple Editor</title> 
</head> 
<body> 
<form action='simple edit.cgi' method=' POST > 
<textarea rows='10' cols='20' name="'text'>{}</textarea><br /> 
<input type= Submjit” /> 
</form> 
</body> 
</html> 
""".format(text)) 
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通过 Web 服 务 器 运行 时 ， 这 个 CGI 脚本 检查 输入 值 text。 如 果 提 交 了 这 个 值 ， 就 将 其 写 人 
simple_edit.dat; 没有 提交 时 ， 这 个 值 默 认为 文件 simple_edit.dat 的 当前 内 容 。 最 后 ， 显 示 一 个 网 
页 ， 其 中 包含 用 于 编辑 和 提交 文本 的 字段 ， 如 图 25-1 所 示 。 











| 鸭 A Simple Editor (K-Meleon) 人 回回 


Fle Edt View Go Bookmarks Favortes Help 轿 

| | 
ickety, nockety, noo, 
oo nO00... 








Submit Query 














图 25-1 ”脚本 simple_edit.cgi 的 运行 情况 


25.5 ”再 次 实现 


至 此 ,第 一 个 原型 已 编写 好 , 它 还 缺 什么 呢 ? 应 让 用 户 能 够 编辑 多 个 文件 , 并 使 用 密码 保护 
这 些 文件 。( 直接 在 浏览 器 中 打开 文档 就 能 查看 它 ， 因 此 无 需 过 多 关注 这 个 程序 的 查看 部 分 。) 
相 比 于 第 一 个 原型 ， 再 次 实现 的 主要 不 同 在 于 ， 你 将 把 它 分 成 两 个 CGI 脚本 ， 分 别 对 应 于 系 
统 支持 的 两 种 操作 。 新 的 原型 包含 如 下 文件 。 
口 index.html: 一 个 普通 网 页 ， 包 含 一 个 供用 户 输入 文件 名 的 表单 ， 还 包含 一 个 触发 edit.cgi 
的 Open 按 钮 。 
口 edit.cgi: 在 文本 区 域 中 显示 指定 文件 的 脚本 。 它 还 包含 一 个 用 于 输入 密码 的 文本 框 以 及 
一 个 触发 save.cgi 的 Save 按 钮 。 
口 save.cgi: 将 收 到 的 文本 保存 到 指定 的 文件 并 显示 一 条 简单 消息 ( 如 The file has been saved ) 
的 脚本 。 这 个 脚本 还 应 负责 检查 密码 。 
下 面 来 逐个 编写 这 些 文件 。 


25.5.1 创建 文件 名 表单 
index.html 是 一 个 HTML 文件， 包含 用 于 输入 文件 名 的 表单 。 
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<html> 
<head> 
<title>File Editor</title> 
</head> 
<body> 
<form action="'edit.cgi' method= POST > 
<b>File name:</b><br /> 
<input type= text” name= filename” /> 
<input type= Submjit” value=' Open ” /> 
</body> 
</html> 





注意 到 这 个 文本 框 名 为 filename， 这 确保 其 内 容 将 通过 CGI 参数 filename 提 供给 脚本 edit.cgi 
( 即 标签 form 的 属性 action 的 值 )。 如 果 你 在 浏览 器 中 打开 这 个 文件 ， 在 文本 框 中 输入 文件 名 ,再 





单 击 Open 按 钮 ， 将 运行 脚本 edit.cgi。 


25.5.2 ”编写 编辑 器 脚本 








脚本 edit.cgi 显 示 的 页 面 应 包含 一 个 文本 区 域 和 一 个 文本 框 , 其 中 前 者 包含 当前 编辑 的 文件 的 


内 容 ， 而 后 者 用 于 输入 密码 。 这 个 脚本 需要 的 唯 



































输入 是 文件 名 ， 它 是 从 index.html 中 的 表单 中 


获得 的 。 然 而 ， 可 在 不 提交 index.html 中 表单 的 情况 下 直接 运行 脚本 edit.cgi。 在 这 种 情况 下 ， 
cgi.FieldStorage 的 字段 将 是 未 设置 的 。 因 此 ， 你 需要 检查 是 否 获 得 了 文件 名 ; 如 果 获 得 了 ， 就 
打开 指定 目录 中 的 这 个 文件 。 我 们 将 这 个 目录 命名 为 data ( 当然 ， 你 必须 创建 这 个 目录 )。 





警告 














通过 提供 包含 路 径 元 素 [ 如 ..( 两 个 点 ) ] 的 文件 名 ， 可 访问 指定 目录 外 的 文件 。 为 确保 


访问 的 文件 在 指定 的 目录 内 ， 应 执行 额外 的 检查 ， 如 列 出 指定 目录 中 的 所 有 文件 (为 此 
可 使 用 模块 glob )， 并 核实 指定 的 文件 名 是 这 些 文件 中 的 一 个 (务必 使 用 完整 的 绝对 路 径 


名 )。27.5.3 节 介绍 了 另 一 种 方法 。 


这 个 脚本 的 代码 类 似 于 代码 清单 25-2。 
代码 清单 25-2 编辑 带 脚 本 (edit.cgi ) 

#1/usr/bin/env python 

print('Content-type: text/html\n') 


from os.path import join, abspath 
import cgi, sys 


BASE_ DIR = abspath( "data ') 


form = cgi.FieldStorage() 
filename = form.getvalue('filename') 
if not filename: 
print('Please enter a file name ') 
sys.exit() 
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text = open(join(BASE DIR, filename)).read() 





print(""" 
<html> 
<head> 
<title>Editing...</title> 
</head> 
<body> 
<form action='save.cgi' method= POST > 
<b>File:</b> {}<br /> 
<input type="'hidden' value='{}' name='filename' /> 
<b>Password:</b><br /> 
<input name="'password' type="'password' /><br /> 
<b>Text:</b><br /> 
<textarea name='text' cols='40' rows="20'>{}</textarea><br /> 
<input type= Submjit” value='Save' /> 
</form> 
</body> 
</html> 
""".format(filename, filename, text)) 





请 注意 , 这 里 使 用 了 函数 abspath 来 获取 目录 data 的 绝对 路 径 。 另 外 , 将 文件 名 存储 在 了 一 个 
隐藏 的 表单 元 素 中 ， 以 便 将 其 传递 给 下 一 个 脚本 (〈 save.cgi )， 同 时 不 给 用 户 修改 它 的 机 会 。( 当 
然 ， 并 不 能 禁止 用 户 修 改 这 个 文件 名 ， 因 为 用 户 可 编写 自己 的 表单 ， 将 它们 放 在 另 一 台 机 器 上 ， 
并 让 这 些 表单 使 用 自 定 义 值 调用 你 的 CGI 脚本 。) 

为 处 理 密码 ， 示 例 代 码 使 用 了 一 个 类 型 为 password ( 而 不 是 text ) 的 input 元 素 , 这 意味 着 用 
户 输入 的 字符 将 显示 为 星 号 。 








注意 ”这 个 脚本 假定 指定 的 文件 存在 ， 你 可 对 其 进行 扩展 ， 使 其 能 够 处 理 其 他 情形 。 


25.5.3 ”编写 保存 脚本 


这 个 简单 系统 的 最 后 一 部 分 是 执行 保存 的 脚本 。 它 接收 文件 名 、 密 码 和 一 些 文本 ,并 检查 密 
码 是 否 正 确 ; 如 果 正 确 ， 就 将 这 些 文本 存储 到 指定 的 文件 中 。( 你 必须 妥善 地 设置 这 个 文件 的 权 
限 。 有 关 如 何 设置 文件 权限 ， 请 参阅 第 15 章 。) 

出 于 好 玩 ， 我 们 将 使 用 模块 sha 来 处 理 密码 。 安 全 散 列 算法 ( Secure Hash Algorithm，SHA ) 
是 一 种 从 输入 字符 串 中 提取 无 意义 的 随机 字符 串 〈 摘要 ) 的 方法 。 这 个 算法 背后 的 思想 是 ， 几 乎 
不 可 能 创建 具有 指定 摘要 的 字符 串 , 因此 即便 你 知道 密码 的 摘要 , 也 无 法 重建 密码 或 创建 一 个 具 
有 该 摘要 的 密码 。 这 意味 着 你 可 将 所 提供 密码 的 摘要 与 存储 的 正确 密码 的 摘要 进行 比较 ， 而 不 用 
对 密码 本 身 进行 比较 。 通 过 使 用 这 种 方法 , 无 需 将 密码 本 身 存储 在 源 代码 中 ， 这 样 阅读 代码 的 人 
根本 不 知道 密码 是 什么 。 
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黄 


告 前 面 说 过 ,实现 这 种 安全 功能 主要 是 出 于 好 玩 。 除非 你 使 用 SSL 或 其 他 类 似 的 技术 (这些 
技术 不 在 这 个 项 目的 讨论 范围 内 ) 来 建立 安全 的 连接 ， 否 则 通过 网 络 提交 的 密码 依然 可 
能 被 窃取 。 另 外 ， 这 里 使 用 的 SHA1 算 法 现在 已 不 是 非常 安全 了 。 


下 面 的 示例 演示 了 sha 的 用 法 : 


>>> from hashlib import sha1 

>>> shai(b'foobar').hexdigest() 
'8843d7f92416211de9ebb963ff4ce28125932878" 
>>> shai(b'foobaz').hexdigest() 
"21eb65337333a5e4763acacd1d453a60C2e0e404e1 


如 你 所 见 ， 密 码 发 生 细 微 的 变化 时 ， 得 到 的 摘要 完全 不 同 。 脚 本 save.cgi 的 代码 如 代码 清单 
25-3 所 示 。 


代码 清单 25-3 ”保存 文件 的 脚本 ( save.cgi ) 


#1/usr/bin/env python 





print('Content-type: text/html\n') 


from os.path import join, abspath 
from hashlib import shai 
import cgi, sys 


BASE_ DIR = abspath( "data ') 
form = cgi.FieldStorage() 


text = form.getvalue('text') 
filename = form.getvalue('filename') 
password = form.getvalue('password') 


if not (filename and text and password): 
print('Invalid parameters.') 
sys.exit() 


if shai(password.encode()).hexdigest() != '8843d7f92416211de9ebb963ff4ce28125932878": 
print('Invalid password') 
sys.exit() 


f = open(join(BASE DIR,filename), 'w') 
f.write(text) 
f.close() 





print('The file has been saved.') 


25.5.4 ”运行 编辑 器 
请 按 下 面 的 步 又 来 使 用 这 个 编辑 器 。 
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(1) 在 Web 浏 览 器 中 打开 页 面 index.html。 务必 通过 Web 服 务 器 来 打开 它 ( 使 用 形 如 http:/www 
someserver.com/index.html 的 URL )， 而 不 要 将 其 作为 本 地 文件 打开 。 结 果 如 图 25-2 所 示 。 


(Areedtorkheen) [上 a 


| He Edt View Go Bookmarks Favortes Help 

















图 25-2 ”CGI 编辑 器 的 起 始 页 面 
(2) 输入 这 个 CGI 编辑 器 可 修改 的 文件 的 名 称 ， 再 单 击 按钮 Open。 浏 览 器 将 包含 脚本 editcgi 
的 输出 ， 如 图 25-3 所 示 。 


议 Editing... (K-Meleon) 


| Hle Edt Vew Go Bookmarks Favortes Help 
File: foofile.txt 
Password: 


Text: 


ickety, nockety, noo, noo, noo... 

















图 25-3 ”CGI 编辑 器 的 编辑 页 面 
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(3) 随意 编辑 这 个 文件 ， 输 入 密码 (你 设置 的 密码 或 这 个 示例 中 的 密码 foobar )， 再 单 击 按钮 
Save。 浏 览 右 将 包含 脚本 save.cgi 的 输出 ， 也 就 是 消息 The file has been saved.。 
(4) 要 核实 文件 被 修改 ， 可 重复 打开 这 个 文件 的 过 程 (第 1~2 步 )。 


25.6 ”进一步 探索 


使 用 这 个 项 目 演示 的 技术 ， 可 开发 各 种 Web 系 统 。 对 于 本 章 开 发 的 系统 ， 可 做 如 下 扩展 。 

口 添加 版 本 控制 ， 保 存 文件 的 旧 副 本 ， 让 你 能 够 撤销 所 做 的 修改 。 

口 添加 用 户 名 支持 ， 以 便 知道 各 项 修改 都 是 由 谁 所 为 。 

口 添加 文件 锁定 功能 ( 如 使 用 模块 fcntl )， 禁 止 两 个 用 户 同 时 编辑 同一 个 文件 。 

口 添加 脚本 view.cgi， 自 动 给 文件 添加 标记 ( 就 像 第 20 章 所 做 的 那样 )。 

口 更 详尽 地 检查 输入 并 添加 对 用 户 更 友好 的 消息 ， 让 脚本 更 健壮 。 

口 不 打印 类 似 于 The file has been saved. 这 样 的 确认 消息 ， 而 是 添加 一 些 更 有 用 的 输出 或 将 用 
户 重 定向 到 另 一 个 页 面 /脚本 。 重 定向 可 使 用 Location 首 部 来 实现 ， 其 工作 原理 类 似 于 
Content-type。 为 此 ， 只 需 在 输出 的 header 部 分 (第 一 个 空 行 前 ) 加 上 Location:、 空 格 和 
要 重 定向 到 的 URL。 

除 扩展 这 个 CGI 系统 的 功能 外 ， 你 可 能 还 想 了 解 一 些 更 复杂 的 Python Web 环 境 (这 在 第 15 章 
讨论 过 )。 















































预告 


至 此 ， 你 练习 编写 了 CGI 脚本 。 下 一 个 项 目 将 更 进一步 ， 使 用 SQL 数据 库 来 存储 数据 。 你 将 
结合 使 用 这 两 种 技术 实现 一 个 功能 齐备 的 基于 Web 的 公告 板 。 

















项 目 7: 自 建 公 告 板 











很 多 软件 都 让 你 能 够 通过 互联 网 与 他 人 交流 ， 你 已 经 见 过 其 中 的 一 些 ， 如 第 23 章 介绍 的 
Usenet 讨 论 组 以 及 第 24 章 介绍 的 聊天 服务 器 。 本 章 将 实现 另 一 种 这 样 的 系统 一 一 基于 Web 的 论坛 。 
虽然 其 功能 与 复杂 的 社交 媒体 平台 相距 其 还 ,但 提供 了 评论 系统 的 基本 功能 。 


26.1 问题 描述 


在 这 个 项 目 中 ,你 将 创建 一 个 通过 Web 发 布 和 回复 消息 的 简单 系统 ， 它 可 作为 论坛 使 用 。 这 
个 系统 非常 简单 ， 但 提供 了 基本 的 功能 ， 并 能 够 处 理 大 量 的 帖子 。 

本 章 介 绍 的 技术 不 仅 可 用 于 开发 独立 论坛 ,还 可 用 于 实现 更 通用 的 协作 系统 .问题 跟踪 系统 、 
带 评论 功能 的 博客 等 。 通 过 将 CGI ( 或 类 似 的 技术 ) 和 可 靠 的 数据 库 〈 这 里 是 SQL 数据 库 ) 结合 
起 来 使 用 ， 可 实现 非常 强大 的 功能 ， 而 且 用 途 非 常 广泛 。 


















































提示 “虽然 自己 编写 代码 很 好 玩 ， 也 能 学 到 不 少 东 西 ， 但 在 很 多 情况 下 ， 购 买 婚 有 的 解决 方案 
更 划算 。 就 论坛 之 类 的 软件 而 言 ， 很 可 能 能 够 找到 很 多 优秀 的 免费 系统 。 另 外 ， 大 多 数 
Web 应 用 框架 都 可 帮助 你 实现 这 样 的 功能 ， 这 在 第 15 章 讨论 过 。 


具体 地 说 ， 最 终 的 系统 必须 满足 如 下 需求 。 
口 显示 当前 所 有 消息 的 主题 。 
口 支持 在 消息 下 方 以 缩放 的 方式 显示 回复 。 
口 让 用 户 能 够 查看 既 有 的 消息 。 
口 让 用 户 能 够 回复 既 有 的 消息 。 
除 这 些 功能 需求 外 ， 如 果 系 统 具 有 如 下 特征 就 更 好 了 : 非常 稳定 ,能 够 处 理 大 量 的 消息 ， 避 
免 两 个 用 户 同 时 写 入 一 个 文件 等 问题 。 为 实现 这 样 的 健壮 性 ,可 使 用 数据 库 服务 器 ， 而 不 自己 编 
写 文件 处 理 代 码 。 


26.2 ”有 用 的 工具 


除 第 15 章 讨论 的 CGI 工具 外 ， 还 需要 一 个 SQL 数据 库 ， 这 在 第 13 章 讨论 过 。 你 可 使 用 第 13 章 
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中 的 单机 数据 库 SQLite， 也 可 使 用 其 他 系统 ， 如 下 面 这 两 种 优秀 的 免费 数据 库 : 
口 PostgreSQL (http:/www.postgresql.org ) 
口 MySQL (http://www.mysql.org ) 

本 章 的 示例 使 用 的 是 PostgreSQL， 但 只 需 对 这 些 代码 稍 作 修改 ， 就 可 使 用 其 他 SQL 数据 库 ， 
如 MySQL 或 SQLite。 

首先 ,需要 确保 你 能 够 访问 SQL 数据 库 服务 器 (或 单机 SQL 数据 库 ， 如 SQLite )， 并 查看 相关 
的 文档 以 了 解 如 何 管理 它 。 

除数 据 库 服务 器 外 ， 还 需要 能 够 与 服务 器 交互 (并 对 你 隐藏 细节 ) 的 Python 模块 。 这 种 模块 
大 都 支持 第 13 章 详细 讨论 过 的 Python DB API。 本 章 将 使 用 Python 模块 psycopg ( http://initd.org )， 
这 是 一 个 健壮 的 PostgreSQL 前 端 。 

如 果 你 使 用 的 是 MySQL 数 据 库 ， 模 块 MySQLdb ( http://sourceforge.net/projects/mysql-python ) 
是 不 错 的 选择 。 

安装 数据 库 模 块 后 ， 就 可 将 其 导入 〈 如 使 用 import psycopg 或 import MySQLdb ) 而 不 引发 


甸 洛 ， 
二 吊 。 


26.3 准备 工作 


要 使 用 数据 库 ， 得 先 创建 它 ， 为 此 可 使 用 SQL。( 有 关 这 方面 的 指南 ， 请 参阅 第 13 章 。) 

数据 库 的 结构 取决 于 要 解决 的 问题 。 创 建 数据 库 并 使 用 数据 ( 消息 ) 填充 后 ， 要 修改 数据 库 
的 结构 有 点 麻烦 ， 因 此 我 们 让 这 个 数据 库 尽 可 能 简单 。 

这 个 数据 库 只 有 一 个 表 , 其 中 每 行 都 对 应 一 条 消息 ,每 条 消息 都 有 独一无二 的 ID( 一 个 整数 )、 
主题 、 发 送 者 ( 发 布 者 ) 以 及 一 些 文本 ( 正文 )。 

男 外 ,鉴于 你 希望 能 够 以 层次 方式 显示 消息 ,每 条 消息 都 应 存储 一 个 引用 ， 它 指出 了 当前 消 
息 回 复 的 是 哪 条 消息 。 为 创建 这 个 表 ， 要 使 用 的 SQL 命令 CREATE TABLE 如 代码 清单 26-1 所 示 。 


代码 清单 26-1 创建 PostgreSQL 数 据 库 


CREATE TABLE messages ( 



















































































id SERIAL PRIMARY KEY， 

subject TEXT NOT NULL, 

sender TEXT NOT NULL, 

reply to INTEGER REFERENCES messages, 
text TEXT NOT NULL 


); 

请 注意 , 这 个 命令 使 用 了 一 些 PostgreSQL 特 有 的 功能 : 确保 每 条 消息 都 自动 获得 独一无二 ID 
的 SERIAL， 数 据 类 型 TXT， 以 及 确保 reply_to 包 含有 效 消 息 ID 的 REFERENCES。 代 码 清单 26-2 显 示 
了 这 个 命令 的 MySQL 版 本 。 
代码 清单 26-2 创建 MySQL 数 据 库 


CREATE TABLE messages ( 
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id INT NOT NULL AUTO INCREMENT, 

subject VARCHAR(100) NOT NULL, 

sender VARCHAR(15) NOT NULL, 

reply_ to INT， 

text MEDIUMTEXT NOT NULL, PRIMARY KEY(id) 


3 
最 后 ， 代 码 清单 26-3 显 示 了 创建 SQLite 数 据 库 的 命令 。 
代码 清单 26-3 ”创建 SQLite 数 据 库 


create table messages ( 


id integer primary key autoincrement, 
subject text not null, 
sender text not null, 





reply_to int， 

text text not null 

我 已 让 这 些 代 码 片段 尽 可 能 简单 ( SQL 高 手 肯定 能 找到 改进 空间 ), 毕竟 本 章 的 重点 是 Python 
代码 。 前 述 SQL 语 句 创建 的 数据 库 表 包含 如 下 5 个 字段 ( 列 )。 
D id: 用 于 标识 消息 。 每 条 消息 都 会 自动 获得 由 数据 库 管理 器 提供 的 独一无二 的 ID ， 因 此 
无 需 在 Python 代码 中 指定 这 些 ID。 
口 subject: 包含 消息 主题 的 字符 串 。 
口 sender: 包含 发 送 者 姓名 、 电 子 邮箱 地 址 或 其 他 类 似 信息 的 字符 串 。 
口 reply_to: 如 果 消 息 是 另 一 条 消息 的 回复 ， 这 个 字段 将 包含 那 条 消息 的 id， 否 则 为 空 。 
D text: 包含 消息 正文 的 字符 串 。 
创建 这 个 数据 库 ， 并 设置 其 权限 让 Web 服 务 器 能 够 读 取 其 内 容 以 及 搬 人 新 行 后 ， 就 可 开始 编 
写 CGI 代 码 了 。 









































26.4 初次 实现 


在 这 个 项 目 中 , 第 一 个 原型 的 功能 很 有 限 。 它 只 包含 一 个 使 用 数据 库 功能 的 脚本 ,让 你 能 够 
了 解 其 中 的 工作 原理 。 掌握 工作 原理 后 , 再 编写 其 他 必要 的 脚本 就 不 会 太 难 了 。 从 很 大 程度 上 说 ， 
这 个 原型 只 是 简单 地 回顾 了 第 13 章 介绍 的 内 容 。 

代码 的 CGI 部 分 与 第 25 章 很 像 。 如 果 你 还 没有 阅读 那 章 ， 请 现在 浏览 一 下 。 男 外 ， 你 还 应 复 
习 一 下 15.2.4 节 。 
























































警告 ”在 本 章 的 CGI 脚本 中 ， 导 入 并 启用 了 模块 cgitb， 这 对 发 现代 码 的 缺陷 大 有 神 益 ， 但 部 署 
这 个 软件 前 ， 应 删除 调用 cgitb.enable 的 代码 ， 因 为 你 不 希望 普通 用 户 看 到 cgitb 跟 踪 。 


首先 要 知道 的 是 Python DB API 的 工作 原理 。 如 果 你 还 没有 阅读 第 13 章 ， 现 在 应 该 大 致 浏览 
一 下 。 对 于 只 想 接 着 往 下 读 的 读者 ， 这 里 再 次 介绍 一 下 数据 库 模 块 的 核心 功能 。( 请 将 其 中 的 db 
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禁 换 为 你 使 用 的 数据 库 模 块 的 名 称 ， 如 psycopg 或 MysQLdb。 ) 


口 


黄 
下 


口 
口 
口 
口 
口 
口 


口 
口 








conn = db.connect('user=foo password=bar dbname=baz' ) : 以 用 户 foo 的 身份 ( 密码 为 bar ) 
连接 到 数据 库 baz， 并 将 返回 的 连接 对 象 赋 给 变量 conn。( 请 注意 ， 给 connect 指 定 的 参数 
是 一 个 字符 串 。) 





在 这 个 项 目 中 ， 假 定数 据 库 和 Web 服 务 器 运行 在 专用 的 计算 机 上 。 指 定 的 用 户 (foo ) 应 
只 能 从 那 台 计 算 机 连接 到 数据 库 ， 以 避免 不 希望 的 访问 。 因 此 并 非 必 须 使 用 密码 ， 但 数 
据 库 可 能 要 求 你 必须 设置 密码 。 如 果 想 要 让 任何 人 都 可 以 访问 这 个 论坛 ， 应 更 深入 地 了 
解 相关 的 安全 措施 ， 因 为 这 个 示例 项 目 是 不 安全 的 ! 


curs = conn.cursor(): 从 连接 对 象 获取 游标 对 象 。 游 标 用 于 执行 SQL 语句 和 获取 结果 。 
conn.commit() : 提交 上 次 提交 后 执行 SQL 语句 导致 的 修改 。 

conn.close(): 关闭 连接 。 

curs.execute(sql_ string): 执行 SQL 语句 。 

curs.fetchone(): 以 序列 〈 如 元 组 ) 的 方式 获取 一 个 结果 行 。 

curs.dictfetchone(): 以 字典 的 方式 获取 一 个 结果 行 。( 这 并 非 标 准 的 一 部 分 ， 因 此 并 非 
所 有 的 模块 都 提供 了 这 样 的 功能 。) 

curs.fetchall(): 以 包含 序列 的 序列 ( 如 元 组 列表 ) 的 方式 获取 所 有 结果 行 。 
curs.dictfetchall(): 以 字典 序列 ( 如 字典 列表 ) 的 方式 获取 所 有 结果 行 。( 这 并 非 标准 
的 一 部 分 ， 因 此 并 非 所 有 的 模块 都 提供 了 这 样 的 功能 。) 









































下 面 是 一 个 简单 的 测试 《这 里 假设 使 用 的 是 模块 psycopg )， 它 获取 数据 库 中 所 有 的 消息 〈 当 
前 这 个 数据 库 是 空 的 ， 因 此 结果 为 空 ): 


>>> 
>>> 
pop 
22> 
>>> 


[] 


由 于 还 没有 实现 Web 接 口 ， 因 此 要 测试 这 个 数据 库 ， 必 须 手工 输入 消息 。 为 此 ， 可 使 用 管理 








import psycopg2 

conn = psycopg2.connect('user=foo password=bar dbname=baz') 
curs = conn.cursor() 

curs.execute('SELECT * FROM messages ') 

curs.fetchall() 




















工具 ( 如 MySQL 管 理工 具 mysql 或 PostgreSQL 管 理工 具 psql )， 也 可 在 Python 解释 器 中 使 用 数据 库 


模块 。 














下 面 是 一 个 代码 片段 ， 你 可 使 用 它 来 添加 消息 ， 以 方便 测试 : 


#1/ 
# a 





usr/bin/env python 
ddmessage.py 





import psycopg2 


con 


CuUrS 


n = psycopg2.connect('user=foo password=bar dbname=baz) 


conn.cursor() 


reply to = input('Reply to: ') 
subject = input('Subject: ') 
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sender = input('Sender: ') 
text = input('Text: ') 


if reply to: 
query = """ 
INSERT INTO messages(reply to, sender, subject, text) 


VALUES({}, '{}', '{}', '{}')""".format(reply to, sender, subject, text) 
else: 


query = """ 
INSERT INTO messages(sender, subject, text) 
VALUES('{}', '{}', '{}')""".format(sender, subject, text) 


curs.execute(query) 
conn.commit() 


请 注意 ， 这 些 代 码 有 点 粗糙 。 它 没有 替 你 跟踪 ID ( 因此 你 必须 确保 指定 的 reply to 值 为 有 效 
的 ID )， 也 不 能 妥善 地 处 理 包含 单 引号 的 文本 (这样 做 会 带 来 问题 ， 因 为 SQL 使 用 单 引 号 来 界定 
字符 串 )。 当 然 ， 最 终 的 系统 将 解决 这 些 问题 。 

请 尝试 在 交互 式 Python 提示 符 下 添加 几 条 消息 并 查看 数据 库 。 如 果 万 事 大 吉 ， 就 该 编写 访问 
数据 库 的 CGI 脚本 了 。 

至 此 ， 你 知道 了 如 何 编写 处 理 数据 库 的 代码 ， 还 可 使 用 第 25 章 现成 的 CGI 代码 ， 因 此 编写 查 
看 消息 主题 的 脚本 (论坛 主页 的 简化 版 ) 应 该 不 会 太 难 。 你 必须 执行 标准 的 CGI 设置 〈 就 这 里 而 
言 ， 主 要 是 打印 Content-type 字 符 串 )， 执 行 标准 的 数据 库 设置 ( 获取 连接 和 游标 )， 执 行 简单 的 
SQL select 命 令 来 获取 所 有 的 消息 ， 再 使 用 curs.fetchall 或 curs.dictfetchall 获 取 所 有 结果 行 。 

代码 清单 26-4 是 一 个 完成 这 些 任务 的 脚本 ， 其 中 只 有 设置 格式 的 代码 是 你 以 前 没有 见 过 的 ， 
它们 用 于 在 消息 下 方 以 缩放 的 方式 显示 回复 。 

这 个 代码 清单 的 工作 原理 大 致 如 下 。 

(1) 对 于 每 条 消息 ， 获 取 其 reply_ to 字段 。 如 果 这 个 字段 为 None (不 是 回复 )， 就 将 当前 消息 
加 入 顶级 消息 列表 中 ， 和 否则 就 将 其 附加 到 子 消 息 列 表 children[parent id] 末尾 。 

(2) 对 于 每 条 顶级 消息 , 调用 format。 函 数 format 打 印 消息 的 主题 。 如 果 它 有 子 消息 ,就 打印 
起 始 标签 cblockquote>， 对 每 条 子 消息 递归 地 调用 format ， 再 打印 结束 标签 /blockquotey>。 

如 果 你 在 Web 浏 览 器 中 运行 这 个 脚本 (有关 如 何 运 行 CGI 脚 本 的 详细 信息 ， 请 参阅 第 15 章 )， 
将 看 到 以 层次 结构 显示 的 所 有 消息 (的 主题 )。 

图 26-1 显 示 了 这 个 公告 板 是 这 样 的 。 






















































































注意 ”如果 你 使 用 的 是 SQlite， 就 不 能 像 代 码 清单 26-4 那 样 使 用 dictfetchal1， 而 需要 将 代码 行 
rows = cuTs.dictfetchall() 替 换 为 如 下 代码 片段 : 


names = [d[0] for d in curs.description] 
rows = [dict(zip(names, row)) for row in curs.fetchall()] 
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议 The FooBar Bulletin Board (K-Meleon) 世 回 因 





Fie Edit View Go Bookmarks Favorites Help 
The FooBar Bulletin Board 


Anyone here? 









Mr. Gumby is in town 
Re: Mr. Gumby is in town 
Re: Mr. Gumby is in town 
Mr. Gumby has left the building 


Earm SSS in no time!!! 


了 Post message 











Ready 轩 


图 26-1 ”主页 面 








代码 清单 26-4 ”公告 板 主页 ( simple_main.cgi ) 
#1/usr/bin/python 


print('Content-type: text/html\n') 
import cgitb; cgitb.enable() 


import psycopg2 
conn = psycopg2.connect('user=foo password=bar dbname=baz') 
curs = conn.cursor() 
print(""" 
<html> 
<head> 
<title>The FooBar Bulletin Board</title> 
</head> 
<body> 
<h1>The FooBar Bulletin Board</h1> 


""") 


curs.execute('SELECT * FROM messages ') 
rows = curs.dictfetchall() 


toplevel = [] 
children = {} 


for row in rows: 
parent_ id = row['reply to'] 
if parent id is None: 
toplevel .append(row) 
else: 
children.setdefault(parent id, []).append(row) 


26.5 再 次 实现 393 





def format(row): 
print(row['subject']) 
try: kids = children[row['id']] 
except KeyError: pass 
else: 
print('<blockquote>') 
for kid in kids: 
format(kid) 
print('</blockquote>') 








print('<p>') 


for row in toplevel: 
format (row) 


print(""" 
</p> 

</body> 

</html> 


注意 ”如果 这 个 程序 由 于 某 种 原因 无 法 正常 运行 ， 可 能 是 因为 你 没有 正确 地 设置 数据 库 。 请 参 
阅 你 使 用 的 数据 库 的 文档 ， 了 解 需 要 如 何 做 才能 让 指定 用 户 连 接 到 数据 库 并 对 其 进行 修 
改 。 例 如 ， 可 能 需要 显 式 地 指定 可 连接 到 数据 库 的 计算 机 的 全 地址 。 


26.5 ”再 次 实现 


初次 实现 的 功能 很 有 限 , 用 户 甚至 不 能 发 布 消息 。 本 节 将 对 这 个 简单 的 系统 进行 扩展 , 但 最 
终 版 本 的 基本 结构 将 与 这 个 版 本 相同 。 你 将 采取 一 些 措施 对 提供 的 参数 进行 检查 ， 例 如 检查 
reply_to 是 否 是 数字 以 及 是 否 提供 了 必要 的 参数 ,但 你 必须 意识 到 ， 要 让 系统 如 此 健壮 上 且 对 用 户 
如 此 友好 是 一 项 艰巨 的 任务 。 如 果 要 使 用 这 个 系统 (或 自己 改进 后 的 版 本 )， 就 应 妥善 地 处 理 这 
些 问 题 。 

然而 ,要 改善 稳定 性 , 首先 得 确保 系统 管用 ,不 是 吗 ? 那么 从 哪里 着 手 呢 ?7 如 何 组 织 系统 呢 ? 

对 于 使 用 CGI 等 技术 的 Web 程 序 ， 一 种 简单 的 组 织 方式 是 ， 对 于 要 让 用 户 能 够 执行 的 每 项 操 
作 ， 都 使 用 一 个 脚本 来 实现 。 就 这 个 系统 而 言 ， 这 意味 着 需要 编写 如 下 脚本 。 

口 main.cgi: 以 层次 方式 显示 所 有 消息 的 主题 ， 并 将 这 些 主题 作为 到 消息 本 身 的 链接 。 

D view.cgi: 显示 一 条 消息 ， 并 提供 让 用 户 能 够 回复 的 链接 。 

口 edit.cgi: 以 可 编辑 的 方式 显示 一 条 消息 〈 就 像 第 25 章 那样 使 用 文本 框 和 文本 区 域 )， 其 中 

的 Submit 按 钮 链接 到 脚本 save.cgi。 

D save.cgi: 从 edit.cgi 那 里 接收 有 关 消 息 的 信息 ， 并 通过 在 数据 库 表 中 插入 一 个 新 行 来 保存 
这 条 消息 。 

下 面 来 分 别 编 写 这 些 脚 本 。 
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26.5.1 编写 脚本 main.cgi 


脚本 main.cgi 很 像 第 一 个 原型 中 的 脚本 simple_main.cgi, 主要 差别 在 于 加 入 了 链接 : 每 个 主题 
都 链接 到 相应 消息 ( 到 view.cgi 的 链接 ); 同时 在 页 面 底 部 添加 让 用 户 能 够 发 布 新 消息 的 链接 ( 到 
edit.cgi 的 链接 )。 

请 看 代码 清单 26-5 所 示 的 代码 。 包 含 到 每 条 消息 的 链接 的 代码 行 (包含 在 函数 format 中 ) 类 
似 于 下 面 这 样 : 

print("<p><a href="view.cgi?id={id}i">{subject}</a></p>' .format(row)) 

大 致 而 言 ， 这 行 代 码 创 建 到 view.cgi?id=someid 的 链接 ， 其 中 someid 是 给 定 行 的 id。 这 种 语 
法 (问号 和 key=val ) 是 一 种 向 CGI 脚 本 传递 参数 的 方式 ,这 意味 着 用 户 单 击 链 接 时 , 将 正确 地 设 
置 参数 id 并 运行 脚本 view.cgi。Post message 是 到 脚本 edit.cgi 的 链接 。 


代码 清单 26-5 ”公告 板 主页 ( main.cgi ) 
#!/usr/bin/python 


























print('Content-type: text/html\n') 
import cgitb; cgitb.enable() 


import psycopg2 
conn = psycopg2.connect('user=foo password=bar dbname=baz') 
curs = conn.cursor() 


print(""" 
<html> 
<head> 
<title>The FooBar Bulletin Board</title> 
</head> 
<body> 
<h1>The FooBar Bulletin Board</h1> 


) 


curs.execute('SELECT * FROM messages ') 
rows = curs.dictfetchall() 


toplevel = [] 
children = {} 


for row in rows: 
parent id = row['reply to '] 
if parent id is None: 
toplevel .append(row) 
else: 
children.setdefault(parent id, []).append(row) 


def format(row): 





print("<p><a href="view.cgi?id={id}i">{subject}</a></p>' .format(Tow) ) 
try: kids = children[row[ id']] 
except KeyError: pass 
else: 

print('<blockquote>') 

for kid in kids: 

format (kid) 

print('</blockquote>') 

print('<p>') 


for row in toplevel: 
format (row) 


print(""" 
</p> 
<hr /> 
<p><a href="edit.cgi">Post message</a></p> 
</body> 
</html> 
入 


下 面 来 看 看 脚本 view.cgi 是 如 何 处 理 参数 id 的 。 


26.5.2 ”编写 脚本 view.cgi 


脚本 view.cgi 根 据 提供 给 它 的 CGI 参 数 id 从 数据 库 获取 一 条 消息 , 再 使 用 得 到 的 值 来 生成 一 个 
简单 的 HTML 页 面 。 这 个 页 面包 含 一 个 返回 到 主页 面 ( main.cgi ) 的 链接 ， 更 有 趣 的 是 ， 它 还 包 
含 一 个 到 edit.cgi 的 链接 ,但 这 里 将 参数 reply_ to 设置 为 id 的 值 ， 以 确保 新 消息 是 对 当前 消息 的 回 
复 。 脚 本 view.cgi 的 代码 如 代码 清单 26-6 所 示 。 


代码 清单 26-6 ”消息 查看 器 ( view.cgi ) 
#!/usr/bin/python 


























print('Content-type: text/html\n') 





import cgitb; cgitb.enable() 


import psycopg2 
conn = psycopg2.connect('user=foo password=bar dbname=baz') 
curs = conn.cursor() 


import cgi, sys 
form = cgi.FieldStorage() 
id = form.getvalue('id') 


print(™"" 

<html> 
<head> 

<title>View Message</title> 
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</head> 
<body> 
<h1>View Message</h1> 
”) 
try: id = int(id) 
except: 
print('Invalid message ID') 
sys.exit() 


curs.execute('SELECT * FROM messages WHERE id = %s', (format(id),)) 
rows = curs.dictfetchall() 


if not rows: 
print('Unknown message ID') 
sys.exit() 





row = rows[0] 


print(""" 
<p><b>9ubject:</b> {subject}<br /> 
<b>Sender:</b> {sender}<br /> 
<pre>{text}</pre> 
</p> 
<hr /> 
<a href='main.cgi'>Back to the main page</a> 
| <a href="edit.cgi?reply to={id}">Reply</a> 

</body> 
</html> 
""".format(row)) 


通过 使 用 SQL 包 本 身 的 拆 分 机 制 ， 避 免 了 前 面 所 说 的 单 引 号 问题 ， 让 代码 更 安全 。 





警告 不 应 将 不 信任 的 文本 直接 播 入 用 作 SQL 查询 的 字符 串 中 ， 因 为 这 样 的 代码 很 容易 遭受 
SQL 注入 攻击 。 相 反 ， 应 使 用 Python DB API 占 位 符 机 制 ， 并 向 curs.execute 提 供 一 个 额 
外 的 参数 元 组 。 有 关 这 方面 的 详细 信息 ， 可 参阅 http://bobby-tables.com。 


26.5.3 ”编写 脚本 edit.cgi 


脚本 edit.cgi 实 际 上 承担 了 双重 职责 : 既 用 于 编辑 新 消息 ,也 用 于 编辑 回复 。 这 两 项 功能 的 差 
别 并 不 大 : 如 果 在 CGI 请 求 中 提供 了 reply_to, 就 将 其 存储 在 编辑 表单 中 一 个 隐藏 的 input 元 素 中 。 
在 Web 表 单 中 ， 隐 藏 的 input 元 素 用 于 临时 存储 信息 。 它 们 不 像 文本 区 域 等 元 素 那 样 是 用 户 能 够 
看 到 的 ， 但 它们 的 值 也 将 传递 给 表单 的 属性 action 指 定 的 CGI 脚本 ， 这 让 生成 表单 的 脚本 能 够 向 
处 理 该 表单 的 脚本 传递 信息 。 

另外 ， 默 认 将 主题 设置 为 "Re: parentsubject"( 除非 主题 已 经 以 Re: 打 头 ， 在 这 种 情况 下 ， 
不 用 继续 添加 Re: )。 处 理 这 些 细节 的 代码 片段 如 下 : 




































































26.5 再 次 实现 397 





1 


subject = 
if reply to is not None: 
print('<input type="hidden" name="reply to" value="{}"/>'.format(reply to)) 
curs.execute('SELECT subject FROM messages WHERE id = %s', (reply to,)) 
subject = curs.fetchone()[0] 
if not subject.startswith('Re: '): 
subject = 'Re: ' + subject 


代码 清单 26-7 显 示 了 脚本 edit.cgi 的 源 代码 。 


代码 清单 26-7 消息 编辑 右 ( edit.cgi ) 
#!/usr/bin/python 





print('Content-type: text/html\n') 
import cgitb; cgitb.enable() 


import psycopg2 
conn = psycopg2.connect('user=foo password=bar dbname=baz') 
curs = conn.cursor() 


import cgi, sys 
form = cgi.FieldStorage() 
reply to = form.getvalue('reply to') 
print(""" 
<html> 
<head> 
<title>Compose Message</title> 
</head> 
<body> 
<h1>Compose Message</h1> 


<form action='save.cgi' method="'POST'> 


二 浊 


subject = 
if reply to is not None: 
print('<input type="hidden" name="reply to" value="{}"/>'.format(reply to)) 
curs.execute('SELECT subject FROM messages WHERE id = %s', (format(reply to),)) 
subject = curs.fetchone()[0] 
if not subject.startswith( Re: '): 
subject = "Re: ' + subject 





print(""" 
<b>Subject:</b><br /> 
<input type='text' size='40' name="subject' value='{}' /><br /> 
<b>Sender:</b><br /> 
<input type='text' size='40' name='sender' /><br /> 
<b>Message:</b><br /> 
<textarea name='text' cols='40' rows='20'></textarea><br /> 
<input type= Submjit” Value= ' Save /> 
</form> 
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<hr /> 
<a href='main.cgi'>Back to the main page</a> 
</body> 
</html> 
""".format(subject)) 


26.5.4 ”编写 脚本 save.cgi 


下 面 来 编写 最 后 一 个 脚本 。 脚 本 save.cgi 从 edit.cgi 生 成 的 表单 那里 接收 有 关 一 条 消息 的 信息 ， 








并 将 其 存储 到 数据 库 中 。 这 意味 着 需要 使 用 SQL INSERT 命 令 ， 同 时 
调用 conn.commit ， 这 样 脚本 终止 时 所 做 的 修改 才 不 会 丢失 。 
代码 清单 26-8 显 示 了 脚本 save.cgi 的 源 代码 。 


代码 清单 26-8 ”保存 脚本 ( save.cgi ) 


#!/usr/bin/python 
print('Content-type: text/html\n') 
import cgitb; cgitb.enable() 


import psycopg2 
conn = psycopg2.connect('user=foo password=bar dbname=baz') 
curs = conn.cursor() 


import cgi, sys 
form = cgi.FieldStorage() 


sender = form.getvalue('sender') 
subject = form.getvalue('subject') 
text = form.getvalue('text') 
reply to = form.getvalue('reply to') 


if not (sender and subject and text): 
print('Please supply sender, subject, and text') 
sys.exit() 





if reply to is not None: 


query Cw 
INSERT INTO messages(reply to, sender, subject, text) 

















于 对 数据 库 做 了 修改 ,必须 


VALUES(%s, '%s', '%s', '%s')""", (int(reply to), sender, subject, text)) 


else: 
query = (om 
INSERT INTO messages(sender, subject, text) 
VALUES('%s', '%s', '%s')""", (sender, subject, text)) 


curs.execute(*query) 
conn.commit() 
print(""" 
<html> 


26.5 再 次 实现 399 





<head> 

<title>Message Saved</title> 
</head> 
<body> 

<h1>Message Saved</h1> 

<hr /> 


<a href='main.cgi'>Back to the main page</a> 
</body> 
</html>s 
UR ") 


26.5.5 ”尝试 使 用 


要 测试 这 个 系统 ， 可 首先 运行 脚本 main.cgi， 再 单 击 其 中 的 链接 Post message， 这 将 运行 脚本 
edit.cgi。 在 所 有 的 字段 中 都 输入 一 些 值 ， 再 单 击 链接 Save。 

这 将 运行 脚本 save.cgi， 它 显示 消息 Message Saved。 单 击 链接 Back to the main page 返 回 到 
main.cgi， 列 表 中 应 包含 你 刚才 发 布 的 消息 。 

要 查看 这 条 消息 ， 只 需 单 击 其 主题 。 这 将 使 用 正确 的 ID 来 运行 脚本 view.cgi。 在 这 个 脚本 
生成 的 页 面 中 ， 单 击 链接 Reply。 这 将 再 次 运行 脚本 editcgi， 但 这 次 设置 的 是 reply_to (这 个 
值 存 储 在 一 个 隐藏 的 input 元 素 中 ), 并 使 用 默认 主题 。 同样, 输入 一 些 文 本 , 并 单 击 链接 Save， 
再 返回 到 主页 。 在 主页 中 ,你 的 回复 应 显示 在 原来 的 主题 下 方 。( 如 果 没 有 显示 ， 可 尝试 重新 
加 载 该 页 面 。) 


主页 如 本 章 前 面 的 图 26-1 所 示 ， 消 息 查 看 器 如 图 26-2 所 示 ， 而 消息 编辑 器 如 图 26-3 所 示 。 
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| 视 Vview Message (K-Meleon) [E44 
图 





Fle Edt View Go Bookmarks Favorites Help 





View Message 


Subject: Mr. Gumby is in town 
Sender: Mr. Gumby 


Yes, the rumors are true. I have arrived. 


Back to the main page | Reply 




















图 26-2 ”消息 查看 右 
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Compose Message 


| Subject: 





| Sender: 





外 Message: 
| 




















图 26-3 ”消息 编辑 器 





26.6 ”进一步 探索 


此 ,你 能 够 使 用 可 靠 而 高 效 的 存储 技术 开发 功能 强大 的 大 型 Web 应 用 了 ,但 值得 深入 探究 

的 方面 还 有 很 多 。 

口 编写 一 个 Web 前 端 ， 用 于 人 处理 你 喜欢 的 巨 虹 剧团 剧目 数据 库 如 何 ? 

口 如 果 你 想 改 进 本 章 开发 的 系统 ， 应 考虑 如 何 实 现 抽 象 。 创 建 一 个 实用 模块 ， 在 其 中 包含 
用 于 打印 网 页 首部 和 尾部 的 函数 如 何 ? 这 样 ， 你 就 无 需 在 每 个 脚本 中 都 编写 打印 这 些 
HTML 内 容 的 代码 了 。 另 外, 添加 一 个 能 够 处 理 密码 的 用 户 数据 库 或 将 创建 连接 的 代码 提 
取出 来 也 很 有 帮助 。 

口 如 果 你 希望 解决 方案 不 需要 专用 的 服务 器 , 可 使 用 第 13 章 使 用 的 SQLite, 也 可 使 用 一 些 非 
SQL 解决 方案 [ 如 MongoDB ( https://mongodb.com ) ], 还 可 使 用 专用 的 文件 格式 [ 如 HDF5 


(http:/hSpy.org ) ]。 


























如 果 你 认为 自己 动手 编写 论坛 软件 很 酷 ， 再 接着 编写 一 个 类 似 于 BitTorrent 的 P2P 文 件 共享 程 
序 如 何 ? 这 正 是 你 在 下 一 章 要 做 的 。 好 消息 是 , 这 个 任务 比 之 前 完成 的 大 部 分 网 络 编程 任务 都 要 
简单 ， 这 都 要 归功 于 神奇 的 远程 过 程 调用 。 



































项 目 8: 使 用 XML-RPC 
共享 文件 























本 章 的 项 目 是 一 个 简单 的 文件 共享 应 用 程序 。 通 过 Napster ( 最 初 形 式 的 版 本 已 不 能 下 载 )、 
Gnutella( 有 关 可 用 客户 端的 讨论 ， 请 参阅 http:/www.gnutellaforums.com )、BitTorrent ( 可 从 
http://www.bittorrent.com 下 载 ) 等 众多 著名 的 应 用 程序 ， 你 可 能 已 经 熟悉 文件 共享 的 概念 。 本 章 
将 编写 的 应 用 程序 在 很 多 方面 都 与 它们 类 似 ， 只 是 要 简单 得 多 。 

我 们 将 使 用 的 主要 技术 是 XML-RPC。 第 15 章 说 过 ,这 是 一 种 远程 调用 过 程 ( 函数 ) 的 协议 ， 
这 种 调用 可 能 是 通过 网 络 进行 的 。 如 果 你 愿意 , 可 使 用 普通 的 套 接 字 编程 轻松 地 实现 这 个 项 目的 
功能 ,为 此 可 能 需要 用 到 第 14 章 和 第 24 章 介绍 的 一 些 技巧 。 这 样 做 还 可 能 获得 更 佳 的 性 能 ， 因 为 
XML-RPC 协 议 确实 存在 一 定 的 开销 。 然 而 ，XML-RPC 使 用 起 来 非常 容易 ， 还 很 可 能 极 大 地 简化 
代码 。 
























































27.1 问题 描述 


我 们 要 创建 一 个 P2P (peerto-peer ) 文件 共享 程序 。 大 致 而 言 ， 文 件 共享 意 味 着 在 运行 于 不 
同 计算 机 上 的 程序 之 间 交 换文 件 ( 从 文本 文件 到 声音 或 视频 剪辑 的 各 种 文件 )。P2P 指 的 是 计算 机 
程序 之 间 的 一 种 交互 方式 ， 与 常见 的 客户 端 -服务 器 交互 〈 在 这 种 交互 中 ， 客 户 端 可 链接 到 服务 
器 ， 但 反 过 来 不 行 ) 不 太一 样 。 在 P2P 交 互 中 ， 任 何 对 等 体 〈peer ) 都 可 连接 到 其 他 对 等 体 。 在 
这 样 一 个 由 对 等 体 组 成 的 网 络 中 ， 不 存在 中 央 权 威 〈 在 客户 端 /服务 器 架构 中 ， 这 样 的 权威 为 服 
务 器 )， 这 让 网 络 更 健壮 ， 因 为 除非 你 关闭 大 部 分 对 等 体 ， 和 否则 这 样 的 网 络 不 可 能 裔 省 。 

在 创建 P2P 系 统 的 过 程 中 , 会 遇 到 很 多 问题 。 在 诸如 Gnutella 等 较 旧 的 系统 中 , 对 等 体 可 能 所 
所 有 的 邻居 ( 它 知道 的 其 他 对 等 体 ) 广播 查询 ， 而 这 些 对 等 体 可 能 进一步 广播 查询 。 这 样 ， 响 应 
查询 的 对 等 体 都 可 通过 对 等 体 链 将 应 答 发 回 给 最 初 发 起 查询 的 对 等 体 。 对 等 体 独立 而 并 行 地 工 
作 。 在 诸如 BitTorrent 等 较 新 的 系统 中 , 使 用 了 更 巧妙 的 技术 , 如 要 求 你 上 传 文件 后 才 有 权 下 载 文 
件 。 出 于 简化 考虑 , 这 个 项 目的 系统 将 依次 与 每 个 邻居 联系 ,等 收 到 响应 后 再 与 下 一 个 对 等 体 联 
系 。 这 种 做 法 的 效率 与 Gnutella 采 用 的 并 行 做 法 没 法 比 ， 但 就 这 个 系统 的 目标 而 言 足够 了 。 

大 多 数 P2P 系 统 都 采用 巧妙 的 方式 来 组 织 其 结构 ( 即 每 个 对 等 体 与 哪些 对 等 体 相 邻 ) 以 及 这 
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种 结构 随 对 等 体 连接 和 断 开 的 变化 方式 。 在 这 个 项 目 中 , 我 们 将 采用 非常 简单 的 方式 ,但 留 有 改 
进 的 余地 。 
这 个 文件 共享 程序 必须 满足 的 需求 如 下 。 

口 每 个 节点 都 必须 跟踪 一 组 已 知 的 节点 ， 以 便 能 够 向 这 些 节 点 寻求 帮助 。 还 必须 让 节点 能 

够 向 其 他 节点 介绍 自己 ， 从 而 成 为 其 他 节点 跟踪 的 节点 集中 的 一 员 。 

口 节点 必须 能 够 通过 提供 文件 名 向 其 他 节点 请 求 文件 。 如 果 对 方 有 这 样 的 文件 ， 应 将 其 返 
回 ， 否 则 应 转 而 向 其 邻居 请 求 这 个 文件 〈 而 这 些 邻 居 可 能 转 而 请 其 邻居 请 求 该 文件 )。 被 
请 求 的 节点 如 果 有 这 样 的 文件 ， 就 将 其 返回 。 

口 为 避免 循环 (A 向 B 请 求 , B 又 反 过 来 向 A 请 求 ) 同时 避免 形成 过 长 的 请 求 链 ( A 向 B 请 求 ， 
B 向 C 请 求 等 ， 直 到 向 Z 请 求 )， 向 节点 查询 时 必须 提供 历史 记录 。 这 个 历史 记录 其 实 就 是 
一 个 列表 ， 其 中 包含 在 此 之 前 已 查询 过 的 所 有 节点 。 通 过 不 向 历史 记录 中 已 有 的 节点 请 
求 ， 可 避免 循环 ， 而 通过 限制 历史 记录 的 长 度 ， 可 避免 查询 链 过 长 。 

口 必须 能 够 连接 到 其 他 节点 ， 并 将 自己 标识 为 可 信任 方 。 通 过 这 样 做 ， 节 点 将 能 够 使 用 不 
可 信任 方 ( 如 P2P 网 络 中 的 其 他 节点 ) 无 法 使 用 的 功能 。 这 种 功能 可 能 包括 请 求 对 方 通过 
查询 从 网 络 中 的 其 他 节点 下 载 文件 并 存储 。 

口 必须 提供 这 样 的 用 户 界 面 : 让 用 户 能 够 作为 可 信任 方 连接 到 其 他 节点 ， 并 让 对 方 下 载 文 
件 。 这 种 界面 应 该 能 够 轻松 地 扩展 乃至 蔡 换 。 

要 满足 这 些 需 求 似乎 有 点 难 , 但 你 将 看 到 ， 它 们 实现 起 来 并 不 太 难 。 你 还 可 能 发 现 ,实现 这 

些 功能 后 ， 再 添加 其 他 功能 也 不 会 太 难 。 

























































































黄 


告 ”正如 文档 指出 的 ， 与 XML-RPC 相 关 的 Python 模块 不 能 防范 恶意 创建 的 数据 带 来 的 风险 。 
虽然 这 个 项 目 将 节点 分 为 可 信任 的 和 不 可 信任 的 ， 但 不 应 将 此 视 为 安全 保障 。 在 使 用 这 
个 系统 的 过 程 中 ， 千 万 不 要 连接 到 你 不 信任 的 节点 。 


27.2 ”有 用 的 工具 


在 这 个 项 目 中 ， 我 们 将 使 用 很 多 标准 库 模 块 。 

使 用 的 主要 模块 为 xmlrpc.client 和 xmlrpc.server。 模 块 xmlrpc.client 的 用 法 非常 简单 ， 你 
只 需 使 用 服务 器 的 URL 创 建 一 个 ServerProxy 对 象 , 就 能 够 马上 访问 远程 过 程 。 模 块 xmlrpc.server 
使 用 起 来 要 复杂 些 ， 在 你 完成 本 章 项 目的 过 程 中 将 看 到 这 一 点 。 

为 实现 这 个 文件 共享 程序 的 界面 ， 我 们 将 使 用 第 24 章 介绍 过 的 模块 cnd。 为 实现 一 定 〈 非 常 
有 限 ) 的 并 行 性 ， 我 们 将 使 用 模块 threading 。 为 提取 UREL 的 组 成 部 分 ， 我 们 将 使 用 模块 
urllib.parse。 这 些 模块 将 在 本 章 后 面 介绍 。 

你 可 能 还 需 复习 一 下 其 他 模块 ， 包 括 random、string、time 和 os.path。 有 关 这 些 模块 的 详细 
信息 ， 请 参阅 第 10 章 以 及 “Python 库 参考 手册 ”。 
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27.3 准备 工作 


为 使 用 本 章 将 用 到 的 库 ， 无 需 做 很 多 准备 工作 。 如 果 你 使 用 的 Python 版 本 较 新 ， 其 中 应 该 包 
含 这 里 要 用 到 的 所 有 库 。 

要 使 用 本 章 将 创建 的 软件 ,计算 机 并 非 一 定 要 连接 到 网 络 , 不 过 连接 到 网 络 将 更 有 趣 。 如 果 
你 有 多 台 相 连 的 计算 机 ( 如 它们 都 连接 到 了 互联 网 )， 就 可 分 别 在 每 台 计 算 机 上 运行 这 个 软件 ， 
从 而 让 它们 彼此 通信 (但 你 可 能 需要 修改 当前 正在 运行 的 防火 墙 规则 )。 就 测试 而 言 ， 可 在 同一 
台 计 算 机 上 运行 多 个 文件 共享 节点 。 


27.4 初次 实现 


要 编写 Node 类 ( 系统 中 的 单个 节点 ， 即 对 等 体 ) 的 第 一 个 原型 ， 必 须 对 模块 xmlrpc.server 
中 SimpleXMLRPCServer 类 的 工作 原理 有 些 了 解 。 这 个 类 是 使 用 形 如 (servername, port) 的 元 组 来 实 
例 化 的 ,其 中 servername 是 运行 服务 器 的 计算 机 的 名 称 ( 可 将 其 设置 为 空 字符 串 来 表示 localhost， 
即 执行 程序 的 计算 机 )， 而 port 可 以 是 你 能 够 访问 的 任何 端口 ， 通 常 为 1024 或 更 大 的 值 。 

实例 化 服务 器 后 ， 可 使 用 方法 register instance 注 册 一 个 实现 了 其 “远程 方法 ”的 实例 , 也 
可 使 用 方法 register_ function 注 册 各 个 函数 。 为 运行 服务 器 做 好 准备 ( 让 它 能 够 响应 来 自 外 部 的 
请 求 ) 后 ， 调 用 其 方法 serve_forever。 你 可 轻松 地 尝试 做 到 这 一 点 。 为 此 ， 可 启动 两 个 交互 式 
Python 解释 器 ， 在 第 一 个 解释 器 中 输入 如 下 代码 : 


>>> from xmlrpc.server import SimpleXMLRPCServer 

>>> s = SimpleXMLRPCServer(("", 4242)) # 1ocalhost 和 端口 4242 
>>> def twice(x): # 示例 函数 

i return x * 2 










































































>>> s.register function(twice) # 给 服务 器 添加 功能 
>>> s.serve forever()# 启动 服务 器 


执行 最 后 一 条 语句 后 ， 解 释 器 看 起 来 就 像 “ 挂 起 ”了 一 样 ， 但 实际 上 它 是 在 等 待 RPC 请 求 。 
为 发 出 这 样 的 请 求 ， 切 换 到 另 一 个 解释 器 并 执行 如 下 代码 : 

>>> from xmlrpc.client import ServerProxy # 如 果 你 愿意 ， 也 可 将 ServerProxy 替 换 为 Server 

>>> s = ServerProxy('http://localhost:4242') # 也 是 localhost……: 


>>> s.twice(2) 
4 


很 厉害 吧 ， 如 果 考 虑 到 使 用 xmlrpclib 的 客户 端 可 运行 在 其 他 计算 机 上 ， 就 尤其 如 此 了 。 在 
这 种 情况 下 ， 必 须 使 用 服务 器 计算 机 的 名 称 而 不 是 localhost。 如 你 所 见 ， 要 访问 服务 恬 实 现 的 远 
程 过 程 ， 只 需 使 用 正确 的 URL 实 例 化 一 个 ServerProxy。 真 的 不 能 比 这 更 容易 了 。 
























































27.4.1 实现 简单 的 节点 


介绍 XML-RPC 技 术 后 ， 该 着 手 编码 了 。( 第 一 个 原型 的 完整 源 代码 如 本 节 末 尾 的 代码 清单 
27-1 所 示 。 ) 
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为 找到 切入 点 , 回顾 一 下 本 章 前 面 介 绍 的 需求 是 个 不 错 的 主意 。 我 们 关心 的 主要 有 两 点 :Node 
必须 存储 哪些 信息 ( 属性 ); Node 必 须 能 够 执行 哪些 操作 (方法 )。 

Node 必 须 至 少 包含 如 下 属性 。 
口 目录 名 : 让 Node 知 道 到 哪里 去 查找 文件 或 将 文件 存储 到 哪里 。 
口 密码 : 供 其 他 节点 用 来 将 自己 标识 为 可 信任 方 。 
口 一 组 已 知 的 对 等 体 (URL )。 
口 URL: 可 能 加 入 到 查询 历史 记录 中 或 提供 给 其 他 节点 ( 这 个 项 目 不 会 以 第 二 种 方式 使 用 

URL )。 

Node 的 构造 函数 只 是 设置 这 4 个 属性 。 除 构造 函数 外 ， 还 需要 用 于 查询 的 方法 、 绪 取 和 存储 
文件 的 方法 以 及 向 其 他 节点 介绍 自己 的 方法 。 我 们 将 这 些 方 法 分 别 命名 为 query、fetch 和 hello。 
下 面 是 使 用 伪 代 码 编写 的 Node 类 的 骨架 . 


class Node: 

































































def init (self, url, dirname, secret): 
self.url = url 
self.dirname = dirname 
self.secret = secret 
self.known = set() 


def query(self, query): 
查找 文件 (可 能 向 邻居 查询 ) 并 以 字符 串 的 方式 返回 它 





def fetch(self, query, secret): 
如 果 密 码 (secret) 无 误 ， 就 执行 常规 查询 并 存储 文件 。 
换 而 言 之 ， 让 节点 找到 并 下 载 文 件 





def hello(self, other): 
将 节点 other 添加 到 已 知 对 等 体 集合 中 
假设 已 知 对 等 体 集合 名 为 known, 方法 hello 将 非常 简单 ， 它 只 需 将 other 添加 到 self.known 中 
即 可 ， 其 中 other 是 这 个 方法 的 唯一 参数 ( 一 个 URL )。 然 而 ，XML-RPC 要 求 所 有 方法 都 必须 返 
回 一 个 值 ， 而 不 能 返回 None。 有 鉴于 此 ， 下 面 来 定义 两 个 指出 成 功 还 是 失败 的 “编码 ”。 


OKk=1 
FAIL = 2 


然后 像 下 面 这 样 实现 方法 hello: 


def hello(self, other): 
self.known.add(other) 
return OK 


向 SimpleXMLRPCServeT 注 册 节 点 后 ， 就 可 从 外 面 调 用 这 个 方法 了 。 

方法 query 和 fetch 要 环 手 些 。 先 来 编写 fetch， 因 为 它 更 简单 。 这 个 方法 必须 接受 参数 query 和 
secret， 其 中 secret 是 必 不 可 少 的 ,可 避免 节点 被 其 他 节点 随便 操纵 。 请 注意 , 调用 fetch 将 导致 节 
点 下 载 一 个 文件 。 因 此 ， 相 比 于 只 是 传递 文件 的 方法 query， 应 更 严格 地 限制 对 这 个 方法 的 访问 。 
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如 果 提 供 的 密码 不 同 于 ( 启动 时 指定 的 ) self.secret，fetch 将 直接 返回 FAIL; 否则 它 将 调 
用 query 来 获取 指定 的 文件 。 但 方法 query 该 返回 什么 呢 ? 调用 query 时 , 你 希望 能 够 知道 查询 是 否 
成 功 ， 并 在 成 功 时 返回 指定 文件 的 内 容 。 因 此 ， 我 们 将 query 的 返回 值 定义 为 元 组 (code，data)， 
其 中 code 的 可 能 取 值 为 K 和 FAIL， 而 data 是 一 个 字符 串 。 如 果 code 为 KK， 这 个 字符 串 将 包含 找到 
的 文件 的 内 容 ; 否则 为 一 个 随意 的 值 ， 如 空 字符 串 。 

方法 fetch 获 取 code 和 data。 如 果 code 为 FAIL， 这 个 方法 也 直接 返回 FAIL， 否 则 就 以 写 入 模式 
打开 一 个 新 文件 [ 这 个 文件 的 名 称 由 参数 query 指 定 ， 它 包含 在 目录 selfdirname 中 (使 用 
os.path.join 将 两 者 合 而 为 一 )]， 再 将 data 写 和 人 这 个 文件 ， 然 后 关闭 这 个 文件 并 返回 OK。 有 关 这 
种 相对 简单 的 实现 的 源 代 码 ， 请 参阅 本 节 后 面 的 代码 清单 27-1。 

现在 来 看 方法 query。 它 接受 参数 query， 但 还 应 将 历史 记录 作为 参数 〈 历史 记录 包含 一 系列 
不 应 再 向 其 查询 的 URL, 因为 它们 正在 等 待 该 查询 的 响应 )。 鉴于 刚 调用 query 时 , 历史 记录 为 空 ， 
因此 可 将 这 个 参数 的 默认 值 设置 为 空 列表 。 

如 果 查 看 代码 清单 27-1 所 示 的 代码 ， 将 发 现 它 进 一 步 抽象 了 方法 query， 这 是 通过 创建 两 个 
名 为 .handle 和 _broadcast 的 工具 方法 实现 的 。 请 注意 ,这 些 方法 的 名 称 以 下 划 线 打头 ， 意 味 着 不 
能 通过 XML-RPC 来 访问 它们 。( 这 是 SimpleXMLRPCServer 的 行为 , 而 不 是 XML-RPC 的 组 成 部 分 。) 
这 很 有 用 ， 因 为 这 些 方法 并 非 要 向 外 部 提供 独立 的 功能 ， 而 只 是 用 于 组 织 代码 。 

就 现在 而 言 ， 假 设 handle 负 责 查 询 的 内 容 处 理 ( 检查 市 点 是 否 包含 指定 的 文件 ， 获 取 数 据 
等 )， 它 像 query 一 样 返 回 一 个 编码 和 一 些 数据 。 从 代码 清单 27-1 可 知 ， 如 果 code 为 OK ( 找到 了 指 
定 的 文件 ), 方法 _handle 将 立即 返回 code 和 data。 然而, 如 果 _handle 返 回 的 code 为 FAIL, 那么 query 
该 如 何 办 呢 ? 在 这 种 情况 下 ， 它 必须 向 其 他 所 有 已 知 的 节点 寻求 帮助 。 为 此 ， 它 首先 将 self.url 
添加 到 history 中 。 
































































































































注意 更 新 history 时 ， 既 没有 使 用 运算 符 tr=， 也 没有 使 用 列表 方法 append， 因 为 它们 都 就 地 修 
改 列 表 ， 而 你 不 想 修改 参数 history 的 默认 值 。 

















如 果 新 的 history 太 长 ，query 将 返回 FAIL ( 和 一 个 空 字符 串 )。 这 里 随意 地 将 最 大 长 度 设置 成 
了 6， 并 将 其 存储 在 全 局 常量 MAX_HISTORY_LENGTH 中 。 





为 何 将 MAX_HISTORY_LENGTH 设 置 为 6 


这 样 做 基于 的 理念 是 ， 网 络 中 的 任何 对 等 体 最 多 通过 6 步 就 能 到 达 其 他 任何 对 等 体 。 当 
然 ， 这 取决 于 网 络 的 结构 ( 每 个 对 等 体 都 知道 哪些 对 等 体 ) ， 不 过 也 得 到 了 有 关 人 际 关系 的 
“六 度 分 离 ” 假 设 的 支持 。 有 关 这 种 假设 的 描述 ， 请 参阅 维基 百科 上 讨论 六 度 分 离 的 文章 
( http://en.wikipedia.org/wiki/Six_degrees_of separation ) 。 

在 这 个 程序 中 使 用 这 样 的 数字 可 能 不 太 科学 ,但 至 少 是 不 错 的 估计 。 在 包含 大 量 节 点 的 
大 型 网 络 中 ， 鉴 于 这 个 程序 的 非 并 行 性 质 ， 将 MAX_HISTORY_LENGTH 设 置 为 较 大 的 值 可 能 导致 性 
能 变 差 。 因 此 ， 如 果 速 度 很 慢 ， 可 能 应 该 降低 这 个 值 。 
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如 果 history 不 太 长 ， 就 使 用 方法 _ broadcast 向 所 有 已 知 的 对 等 体 广播 查询 。 方 法 _ broadcast 
不 太 复 杂 ， 如 代码 清单 27-1 所 示 。 它 迭代 self.known 的 副本 ， 如 果 当 前 对 等 体 包含 在 history 中 ， 
就 使 用 continue 语 句 跳 到 下 一 个 对 等 体 ,否则 创建 一 个 ServerProxy 对 象 , 并 对 其 调用 方法 query。 
如 果 方 法 query 成 功 , 就 将 其 返回 值 作为 broadcast 的 返回 值 。 可 能 会 因为 网 络 问题 、 错 误 的 URL 
或 节点 不 支持 方法 query 而 引发 异常 , 在 这 种 情况 下 , 将 把 对 等 体 的 URL 从 self.known 中 删除 (这 
是 在 包含 query 调 用 的 try 语 句 的 except 子 句 中 进行 的 )。 最 后 ,， 如果 正常 地 到 达 了 函数 末尾 (什么 
都 没有 返回 )， 将 返回 FAIL 和 一 个 空 字 符 串 。 




















注意 ”不 应 直接 和 迭代 self.known 本 身 , 因 为 这 个 集合 在 迁 代 期 间 可 能 被 修改 。 使 用 其 副本 更 安全 。 


方法 start ( 使 用 从 URL 中 提取 端口 号 的 小 型 工具 函数 get_port ) 创建 一 个 SimpleXMLRPCServer， 
并 将 logRequests 设 置 为 False (不 存储 日 志 )， 然 后 使 用 register_instance 注 册 self,， 并 调用 服务 
髓 的 方法 serve_forever。 

最 后 ， 这 个 模块 的 方法 main 从 命令 行 提取 URL、 目 录 和 密码 ， 再 创建 一 个 Node 对 象 并 调用 其 
方法 start。 

这 个 原型 的 完整 代码 如 代码 清单 27-1 所 示 。 


代码 清单 27-1 简单 的 Node 类 实现 ( simple_ node.py ) 


from xmlrpc.client import ServerProxy 

from os.path import join, isfile 

from xmlrpc.server import SimpleXMLRPCServer 
from urllib.parse import urlparse 

import sys 

















MAX_HISTORY LENGTH = 6 


OK = 1 
FAIL = 2 
EMPTY = "" 


def get_port(ur1) : 
"从 URL 中 提取 端口 ' 
name = urlparse(url)[1] 
parts = name.split(':') 
return int(parts[-1]) 


class Node: 
P2P 网 络 中 的 节点 


def init (self, url, dirname, secret): 
self.url = url 
self.dirname = dirname 
self.secret = secret 
self.known = set() 
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def 


def 


def 


def 


def 


def 


query(self, query, history=[]): 


查询 文件 (可 能 向 已 知 节点 寻求 帮助 ) ， 并 以 字符 串 的 方式 返回 它 
code, data = self. handle(query) 
if code == OK: 

return code, data 
else: 

history = history + [self.url] 

if len(history) >= MAX HISTORY LENGTH: 

return FAIL, EMPTY 
return self. broadcast(query, history) 


hello(self, other): 


用 于 向 其 他 节点 介绍 当前 节点 
self.known.add(other) 
return OK 


fetch(self, query, secret): 


用 于 让 节点 查找 并 下 载 文件 
if secret != self.secret: return FAIL 
code, data = self.query(query) 
if code == OK: 
f = open(join(self.dirname, query), 'w') 
f.write(data) 
f.close() 
return OK 
else: 
return FAIL 


_start(self): 


供 内 部 用 来 启动 XML-RPC 服 务 器 

s = SimpleXMLRPCServer(("", get port(self.url)), logRequests=False) 
s.register instance(self) 

s.serve forever() 


_handle(self, query): 


nn 


供 内 部 用 来 处 理 查询 
dir = self.dirname 

name = join(dir, query) 

if not isfile(name): return FAIL, EMPTY 
return OK, open(name).read() 





_broadcast(self, query, history): 


供 内 部 用 来 向 所 有 已 知 节点 广播 查询 
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密码 。 


for other in self.known.copy(): 
if other in history: continue 
try: 
s = ServerProxy(other) 
code, data = s.query(query, history) 
if code == OK: 
return code, data 
except: 
self.known.remove(other) 
return FAIL, EMPTY 


def main(): 
url, directory, secret = sys.argv[1:] 
n = Node(url, directory, secret) 
n._ start() 


if name == "main ': main() 


下 面 来 看 一 个 有 关 如 何 使 用 这 个 程序 的 简单 示例 。 


27.4.2 ”尝试 使 用 





确保 打开 了 多 个 终端 ( Terminal.app、xterm、DOS 窗 口 或 其 他 终端 ), 假设 你 要 (在 同一 台 计 





python simple node.py http://localhost:4242 files1 secret1 


算 机 上 ) 运行 两 个 对 等 体 , 需要 为 每 个 对 等 体 分 别 创建 一 个 目录 ( 如 甸 es1 和 files2 ), 在 目录 files2 
中 放置 一 个 文件 ( 如 test.txt )， 再 在 一 个 终端 中 运行 如 下 命令 ; 


实际 运行 程序 时 ， 将 使 用 完整 的 计算 机 名 称 而 不 是 localhost， 还 可 能 使 用 比 secret1 更 复杂 的 











这 就 是 第 一 个 对 等 体 。 接 下 来 ， 再 创建 一 个 对 等 体 。 为 此 ， 在 另 一 个 终端 中 运行 如 下 命令 : 





python simple node.py http://localhost:4243 files2 SecTet2 


如 你 所 见 , 这 个 对 等 体 提供 位 于 另 一 个 目录 中 的 文件 , 并 使 月 





不 同 的 端口 号 (4243 ) 和 密码 。 





如 果 你 按 前 面 说 的 做 了 ， 应 该 有 两 个 不 同 的 对 等 体 在 运行 
来 启动 交互 式 Python 解释 器 ， 并 尝试 连接 到 其 中 的 一 个 对 等 体 。 





>>> from xmlrpc.client import * 


>>> mypeer = ServerProxy('http://localhost:4242') # 第 一 个 对 等 体 


>>> code, data = mypeer.query('test.txt') 
>>> code 
2 


(它们 位 于 不 同 的 终端 窗口 中 )。 下 面 


如 你 所 见 , 向 第 一 个 对 等 体 请 求 文件 test.txt 时 失败 了 。( 返回 的 编码 2 表示 失败 , 还 记得 吗 ? ) 


下 面 来 尝试 向 第 二 个 节点 请 求 文件 test.txt。 

















>>> otherpeer = ServerProxy('http://localhost:4243') # 第 二 个 对 等 体 


>>> code, data = otherpeer.query('test.txt') 
>>> code 
1 
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这 次 查询 成 功 了 ， 因 为 文件 test.txt 包 含 在 第 二 个 对 等 体 的 文件 目录 中 。 如 果 文 件 test.text 包 含 
的 文本 不 多 ， 可 显示 变量 data 的 内 容 ， 以 核实 正确 地 传输 了 文件 test.txt 的 内 容 。 


>>> data 
‘This is a test\n’' 


到 目前 为 止 一 切 顺利 。 向 第 二 个 对 等 体 介 绍 第 一 个 对 等 体 后 ， 结 果 将 如 何 呢 ? 

>>> mypeer.hello('http://localhost:4243') # 向 otherpeer 介 绍 mypeer 

现在 , 第 一 个 对 等 体 知道 第 二 个 对 等 体 的 URL， 可 向 其 寻求 帮助 了 。 再 次 尝试 向 第 一 个 对 等 
体 查 询 ， 这 次 查询 将 成 功 。 


>>> mypeer.query(' test.txt') 
[1, 'This is a test\n'] 


成 功 了 ! 
现在 就 剩 一 项 功能 没有 测试 了 : 可 让 第 一 个 节点 从 第 二 个 节点 那里 下 载 文件 并 存储 它 吗 ? 


>>> mypeer.fetch('test.txt', 'secret1') 
1 


返回 值 (1 ) 表明 成 功 了 。 如 果 你 查看 目录 files1， 将 发 现 文件 testtxt 奇 迹 般 地 出 现在 这 里 。 
请 启动 多 个 对 等 体 (如 果 你 愿意 ， 可 在 不 同 的 计算 机 上 启动 它们 )， 并 将 每 个 对 等 体 都 介绍 给 其 
他 所 有 对 等 体 。 等 你 玩 烦 了 ， 再 来 看 下 一 个 实现 。 


27.5 ”再 次 实现 
































初次 实现 存在 很 多 缺陷 和 缺点 ， 这 里 不 打算 列 出 全 部 〈27.6 节 将 讨论 一 些 可 能 的 改进 )， 而 
只 列 出 几 个 重要 的 。 
口 如 果 你 停止 并 重启 一 个 节点 ， 可 能 出 现 错误 消息 ， 指 出 端口 被 占用 。 




















口 你 可 能 想 提供 对 用 户 更 友好 的 界面 ， 而 不 是 在 交互 式 Python 解释 器 中 使 用 xmlrpc.client。 
口 返回 的 编码 不 方便 , 一 种 更 自然 、 更 符合 Python 风格 的 解决 方案 是 , 在 找 不 到 文件 时 引发 
自 定义 异常 。 

口 节点 没有 检查 它 返 回 的 文件 是 否 包 含 在 文件 目录 中 。 通 过 使 用 诸如 '../somesecretfile. 
txt' 这 样 的 路 径 ， 图 谋 不 轨 的 黑客 能 够 非法 访问 节点 的 其 他 任何 文件 。 

口 第 一 个 问题 很 好 解决 ， 只 需 将 SimpleXMLRPCServer 的 属性 a1llow reuse address 设 置 为 True 
即 可 。 


SimpleXMLRPCServer.allow reuse address = 1 

如 果 你 不 想 直 接 修 改 这 个 类 ,可 创建 其 子 类 。 其 他 几 个 问题 解决 起 来 要 复杂 些 , 将 在 接 下 来 
的 几 小 节 分 别 讨论 。 源 代码 如 本 童 后 面 的 代码 清单 27-2 和 代码 清单 27-3 所 示 。( 你 可 能 应 该 快速 浏 
览 一 下 ， 再 接着 往 下 读 。 ) 
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27.5.1 创建 客户 端 界 面 


客户 端 界 面 是 使 用 模块 cmd 中 的 Cmd 类 实现 的 ， 有 关 其 工作 原理 的 详细 信息 ,请 参阅 第 24 章 或 
“Python 库 参考 手册 ”。 简 单 地 说 ， 你 从 Cmd 派 生出 一 个 子 类 来 创建 一 个 命令 行 界面 ， 同 时 对 于 要 
让 它 能 够 处 理 的 每 个 命令 ( 如 foo )， 都 创建 一 个 方法 (如 do_foo )。 这 个 方法 将 命令 行 余 下 的 内 
容 (一 个 字符 串 ) 作为 其 唯一 的 参数 。 例 如 ， 如 果 你 在 命令 行 界面 输入 如 下 内 容 : 

say hello 

将 调用 方法 do_say， 并 将 字符 串 'hello ' 作 为 其 唯一 的 参数 。Cmd 的 子 类 使 用 什么 样 的 提示 符 
取决 于 属性 prompt。 

这 里 的 界面 将 只 实现 命令 fetch ( 下载 文 件 ) 和 exit (退出 程序 ), 命令 fetch 调 用 服务 器 的 方 
法 fetch， 并 在 文件 没有 找到 时 打印 一 条 错误 消息 。 命 令 exit 打 印 一 个 空 行 ( 这 只 是 出 于 美观 考 
虑 ) 并 调用 sys.exit。( EOF 命 令 表示 已 到 达 文 件 末尾 。 在 UNIX 系 统 中 , 用 户 按 下 Ctrl+D 时 将 执行 
这 个 命令 。) 

然而 , 在 构造 函数 中 需要 做 什么 呢 ? 你 希望 将 每 个 客户 端 都 与 其 对 等 体 关联 起 来 。 为 此 , 可 
创建 一 个 Node 对 象 并 调用 其 方法 _start， 但 如 果 这 样 做 ， 客 户 端 在 方法 _start 返 回 前 什么 都 做 不 
了 ， 这 导致 客户 端 毫 无 用 处 。 为 解决 这 个 问题 ， 可 在 一 个 独立 的 线程 中 启动 Node。 通 常 ， 使 用 线 
程 时 需要 使 用 锁 等 机 制 做 大 量 的 防护 和 同步 工作 。 然 而 ， 由 于 Client 只 通过 XML-RPC 与 其 Node 
交互 ， 你 无 需 做 任何 防护 和 同步 工作 。 要 在 独立 的 线程 中 运行 方法 start， 只 需 将 下 面 的 代码 放 
在 程序 的 某 个 合适 位 置 : 


from threading import Thread 

n = Node(url, dirname, self.secret) 
t = Thread(target=n. start) 
t.start() 


















































警告 ”修改 这 个 项 目的 代码 时 务必 小 心 。Client 开 始 与 Node 对 象 直接 交互 (或 相反 ) 后 , 很 容易 
出 现 与 线程 化 相关 的 问题 。 修 改 代 码 前 ， 务 必 完 全 理解 线程 化 。 























为 确保 你 使 用 XML-RPC 连 接 到 它 时 已 完全 启动 ， 先 启动 服务 髓 ， 再 使 用 time. sleep 等 待 一 
段 时 间 。 

然后 ， 遍 历 一 个 包含 UREL 的 文件 的 所 有 行 ， 并 使 用 方法 hello 将 服务 器 介绍 给 这 些 行 表示 的 
对 等 体 。 

你 不 用 自己 去 设计 密码 ， 可 使 用 实用 函数 random_string (参见 本 章 后 面 的 代码 清单 27-3 )， 
它 生 成 一 个 由 Client 和 Node 共 享 的 随机 密码 字符 串 。 


27.5.2 引发 异常 


不 返回 表示 成 功 还 是 失败 的 编码 , 而 是 假定 肯定 会 成 功 , 并 在 失败 时 引发 异常 。 在 XML-RPC 
中 ,异常 (或 故障 ) 是 使 用 数字 标识 的 。 在 这 个 项 目 中 , 我 随意 地 选择 了 100 和 200 这 两 个 数 ， 分 
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别 用 于 表示 正常 的 失败 〈 请 求 未 得 到 处 理 ) 和 请 求 被 拒绝 ( 拒绝 访问 )。 


UNHANDLED = 100 
ACCESS DENIED = 200 


class UnhandledQuery (Fault): 
表示 查询 未 得 到 处 理 的 异常 


def init (self, message="Couldn't handle the query"): 
super(). init (UNHANDLED, message) 


class AccessDenied(Fault): 


用 户 试图 访问 未 获得 授权 的 资源 时 将 引发 的 异常 





super(). init (ACCESS DENIED, message) 


异常 是 xmlrpc.client.Fault 的 子 类 。 在 服务 器 中 引发 的 异常 将 传递 到 客户 端 ， 并 保持 
faultCode 不 变 。 如 果 在 服务 器 中 引发 了 普通 异常 (如 IOException )， 也 将 创建 一 个 Fault 类 实例 ， 
因此 你 不 能 在 服务 器 中 随意 地 使 用 异常 。 

从 源 代 码 可 知 ， 逻 辑 基本 上 与 原来 一 样 , 但 现在 程序 没有 使 用 if 语句 来 检查 返回 的 编码 ， 而 
是 使 用 了 异常 。( 由 于 你 只 能 使 用 Fault 对 象 ， 因 此 需要 检查 faultCode。 当 然 ， 如 果 没 有 使 用 
XML-RPC， 就 可 以 使 用 其 他 的 异常 类 。 ) 


27.5.3 ”验证 文件 名 


需要 处 理 的 最 后 一 个 问题 是 , 检查 指定 的 文件 是 否 包含 在 指定 的 目录 中 。 这样 做 的 方法 有 很 
多 ,但 为 独立 于 平台 ( 即 适用 于 Windows、UNIX 和 macOS )， 应 使 用 模块 os.path。 

这 里 采用 的 简单 方法 如 下 : 根据 目录 名 和 文件 名 创建 绝对 路 径 (例如 , 这 将 把 '/foo/bar/../ 
baz' 转 换 为 '/foo/baz' )， 将 目录 名 与 空 文件 名 合并 以 确保 它 以 文件 分 隔 符 (如 '/ ) 结尾 ， 再 检 
查 绝 对 文件 名 是 否 以 绝对 路 径 名 打头 。 如 果 是 这 样 的 ， 就 说 明 指定 的 文件 包含 在 指定 的 目录 中 。 
再 次 实现 的 完整 源 代码 如 代码 清单 27-2 和 代码 清单 27-3 所 示 。 


代码 清单 27-2 新 的 Node 实 现 ( server.py ) 


from xmlrpc.client import ServerProxy, Fault 
from os.path import join, abspath, isfile 
from xmlrpc.server import SimpleXMLRPCServer 
from urllib.parse import urlparse 

import sys 


def _init (self, message="Access denied"): 






























































































































































SimpleXMLRPCServer.allow reuse address = 1 
MAX_HISTORY LENGTH = 6 


UNHANDLED = 100 





412 第 27 章 项 目 8: 使 用 XML-RPC 共享 文件 





ACCESS DENIED = 200 


class UnhandledQuery(Fault): 


表示 查询 未 得 到 处 理 的 异常 
def _init (self, message="Couldn't handle the query"): 
super(). init (UNHANDLED, message) 


class AccessDenied(Fault): 


wn 


用 户 试图 访问 未 获得 授权 的 资源 时 将 引发 的 异常 
def init (self, message="Access denied"): 
super(). init (ACCESS DENIED, message) 





def inside(dir, name): 


wn 


检查 指定 的 目录 是 否 包含 指定 的 文件 

dir = abspath(dir) 

name = abspath(name) 

return name.startswith(join(dir, '')) 


def get port(url): 


nn 


从 URL 中 提取 端口 号 

name = urlparse(url)[1] 
parts = name.split(':') 
return int(parts[-1]) 


class Node: 


P2P 网 络 中 的 节点 
def init (self, url, dirname, secret): 
self.url = url 
self.dirname = dirname 
self.secret = secret 
self.known = set() 


def query(self, query, history=[]): 


查询 文件 (可 能 向 已 知 节点 寻求 帮助 ) ， 并 以 字符 串 的 方式 返回 它 
try: 

return self. handle(query) 
except UnhandledQuery: 

history = history + [self.url] 

if len(history) >= MAX HISTORY LENGTH: raise 

return self. broadcast(query, history) 


def hello(self, other): 
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用 于 向 其 他 节点 介绍 当前 节点 
self.known.add(other) 
return 0 


def fetch(self, query, secret): 


用 于 让 节点 查找 并 下 载 文件 

if secret != self.secret: raise AccessDenied 
result = self.query(query) 

f = open(join(self.dirname, query), 'w') 
f.write(result) 

f.close() 

return 0 


def start(self): 


供 内 部 用 来 启动 XML-RPC 服 务 器 

s = SimpleXMLRPCServer(("", get port(self.url)), logRequests=False) 
s.register instance(self) 

s.serve forever() 


def handle(self, query): 


供 内 部 用 来 处 理 查 询 
dir = self.dirname 

name = join(dir, query) 

if not isfile(name): raise UnhandledQuery 

if not inside(dir, name): raise AccessDenied 
return open(name).read() 





def broadcast(self, query, history): 


供 内 部 用 来 向 所 有 已 知 节点 广播 查询 
for other in self.known.copy(): 
if other in history: Continue 
try: 
s = ServerProxy(other) 
return s.query(query, history) 
except Fault as f: 
if f.faultCode == UNHANDLED: pass 
else: self.known.remove(other) 
except: 
self.known.remove(other) 
raise UnhandledQuery 





def main(): 
url, directory, secret = sys.argv[1:] 
n = Node(url, directory, secret) 
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if name == "main ': main() 





代码 清单 27-3 ”Node 控 制 絮 界面 (client.py ) 


from xmlrpc.client import ServerProxy, Fault 
from cmd import Cmd 

from random import choice 

from string import ascii lowercase 

from server import Node, UNHANDLED 

from threading import Thread 

from time import sleep 

import sys 





HEAD START = 0.1 # 单位 为 秒 
SECRET LENGTH = 100 


def random string(length): 


返回 一 个 指定 长 度 的 由 字母 组 成 的 随机 字符 事 
chars = [] 
letters = ascii lowercase[:26] 
while length > 0: 





length -= 1 
chars.append(choice(letters)) 
return ''.join(chars) 


class Client(Cmd): 


一 个 基于 文本 的 界面 ， 用 于 访问 Node 类 


prompt = “> 


def init (self, url, dirname, urlfile): 


设置 url1、dirname 和 Urlfile， 并 在 一 个 独立 的 线程 中 启动 Node 服 务 器 

Cmd. init (self) 

self.secret = random string(SECRET_ LENGTH) 

n = Node(url, dirname, self.secret) 

t = Thread(target=n. start) 

t.setDaemon(1) 

t.start() 

# 让 服务 器 先行 一 步 : 

sleep(HEAD START) 

self.server = ServerProxy(url) 

for line in open(urlfile): 
line = line.strip() 
self.server.hello(line) 





def do fetch(self, arg): 
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"调用 服务 器 的 方法 fetch" 


self.server.fetch(arg, self.secret) 
except Fault as f: 

if f.faultCode != UNHANDLED: raise 
print("Couldn't find the file", arg) 


def do exit(self, arg): 








do_EOF = do exit # EOF 与 "exit ' 等 价 


def main(): 
urlfile, directory, url = sys.argv[1:] 
client = Client(url, directory, urlfile) 
client.cmdloop() 


if name == "main ': main() 





27.5.4 ”尝试 使 用 
下 面 来 看 看 如 何 使 用 这 个 程序 。 首 先 像 下 面 这 样 启动 它 : 


python client.py urls.txt directory http://servername.com:4242 


文件 urls.txt 里 的 每 行 应 该 都 包含 一 个 URL， 即 包含 其 他 所 有 已 知 对 等 体 的 URL。 通过 第 二 个 
参数 指定 的 目录 应 包含 要 共享 的 文件 〈 新 文件 也 将 下 载 到 这 个 目录 )。 最 后 一 个 参数 是 对 等 体 的 
URL。 运 行 这 个 命令 时 ， 将 出 现 类 似 于 下 面 的 提示 符 : 

下 面 来 尝试 获取 一 个 不 存在 的 文件 : 

> fetch fooo 

Couldn't find the file fooo 

通过 ( 在 同一 台 计算 机 的 不 同 端口 或 不 同 计算 机 上 ) 启动 几 个 相互 认识 的 节点 ( 为 确保 这 些 
节点 相互 认识 ， 只 要 将 它们 的 URL 都 放 在 URL 文 件 中 即 可 )， 可 尝试 像 使 用 第 一 个 原型 那样 使 用 
这 个 程序 。 玩 烦 了 后 ， 再 接着 阅读 下 一 节 。 


27.6 ”进一步 探索 


对 于 本 章 介 绍 的 系统 ， 你 可 能 会 想 出 多 种 改进 和 扩展 方式 。 下 面 是 一 些 探索 建议 。 

口 添加 缓存 功能 。 在 节点 通过 调用 query 来 传递 文件 时 ， 为 何不 同时 存储 该 文件 呢 ? 这 样 ， 
再 有 人 请 求 这 个 文件 时 ， 响 应 速度 将 更 快 。 你 可 以 设置 最 大 缓存 空间 ， 删 除 最 早 缓 存 的 
文件 等 。 
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口 使 用 线程 化 ( 异步 ) 服务 器 。( 这 有 点 难 。) 这 样 ， 可 向 多 个 节点 寻求 帮助 ， 而 无 需 等 待 
它们 应 答 (它们 将 在 以 后 通过 调用 方法 reply 来 应 答 )。 

口 支持 更 高 级 的 查询 ， 如 查询 文本 文件 的 内 容 。 

口 更 充分 地 利用 方法 hello。 通 过 调用 hello 发 现 新 节点 时 , 为 何不 将 这 个 新 节点 介绍 给 其 他 
所 有 已 知 的 对 等 体 呢 ?或 许 你 还 能 想到 更 巧妙 的 新 对 等 体 发 现 方式 。 

口 深入 研究 用 于 分 布 式 系统 的 表述 性 状态 传递 (REST ) 理念 。REST 可 用 于 替代 XML-RPC 
等 Web 服 务 技术 ， 详 情 请 参阅 http:/en.wikipedia.org/wiki/REST。 

口 使 用 xmlrpc.client.Binary 来 封装 文件 ， 从 而 更 安全 地 传输 非 文 本 文件 。 

口 阅读 SimpleXMLRPCServer 的 代码 。 研 究 DocXMLRPCServer 类 以 及 libxmlrpc 中 的 多 调用 
( multicall ) 扩展 。 


























预告 


至 此 ， 你 编写 了 一 个 可 行 的 P2P 文 件 共 享 系统 ， 如 何 让 它 对 用 户 更 友好 呢 ? 在 下 一 章 ， 你 将 
添加 一 个 GUI， 用 于 取代 当前 基于 cmd 的 界面 。 

















项 目 9: 使 用 GUI 共 亭 文件 








这 个 项 目 较 小 ,因为 需要 的 大 部 分 功能 都 已 经 在 第 27 章 编写 好 了 。 在 本 章 中 , 你 将 看 到 给 既 
有 Python 程序 添加 GUI 非常 容易 。 


28.1 问题 描述 


在 这 个 项 目 中 ,我 们 将 扩展 第 27 章 开发 的 文件 共享 系统 : 添加 GUI 客户 端 ， 让 它 使 用 起 来 更 
容易 。 这 意味 着 可 能 有 更 多 的 人 选择 使 用 它 。( 当然 ， 这 个 程序 的 主旨 是 让 多 个 用 户 能 够 共享 文 
件 。) 这 个 项 目的 第 二 个 目标 是 展示 当 程 序 的 模块 化 程度 足够 高 后 ,扩展 起 来 将 非常 容易 。( 这 也 
是 使 用 面向 对 象 编程 的 原因 之 一 。) 

这 个 GUI 客户 端 必须 满足 如 下 需求 。 

口 允许 用 户 输入 文件 名 ， 并 将 其 提交 给 服务 器 的 方法 fecth。 
口 列 出 服务 器 的 文件 目录 当前 包含 哪些 文件 。 
就 这 些 。 由 于 系统 的 大 部 分 功能 已 经 实现 ，GUI 部 分 是 一 个 相对 简单 的 扩展 。 


28.2 ”有 用 的 工具 


除 第 27 章 使 用 的 工具 外 ， 还 需要 使 用 大 部 分 Python 版 本 都 自 带 的 工具 包 Tkinter。 有 关 这 个 工 
具 包 的 详细 信息 ， 请 参阅 第 12 章 。 如 果 你 想 使 用 其 他 GUI 工具 包 ， 可 以 尽管 去 用 。 本 章 的 示例 将 
让 你 对 如 何 使 用 喜欢 的 工具 实现 功能 有 个 大 致 的 认识 。 


28.3 准备 工作 


开始 这 个 项 目前 , 应 准备 好 第 27 章 创建 的 程序 , 并 像 前 一 节 指出 的 那样 安装 一 个 GUIT 具 包 。 | 
除 此 之 外 ， 这 个 项 目 无 需 做 其 他 准备 工作 。 






































28.4 ”初次 实现 
如 果 你 想 看 看 初次 实现 的 完整 源 代 码 ， 请 参阅 本 节 后 面 的 代码 清单 28-1， 其 中 的 很 多 功能 都 
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与 前 一 章 的 项 目 相似 。 这 个 客户 端 提供 了 一 个 界面 (方法 fetch )， 用 户 可 通过 它 来 访问 服务 器 的 
功能 。 下 面 来 看 一 下 与 GUI 相 关 的 代码 。 

第 27 章 的 客户 端 是 cmd.Cmd 的 子 类 ， 而 本 章 的 客户 端 是 tkinter.Frame 的 子 类 。 虽 然 并 非 必 须 
从 tkinter.Frame 派 生出 子 类 ( 你 可 创建 完全 独立 的 Client 类 ), 但 这 是 一 种 比较 自然 的 代码 组 织 方 
式 。 与 GUI 相 关 的 设置 工作 是 在 一 个 独立 的 方法 中 完成 的 , 这 个 名 为 create_widgets 的 方法 被 称 为 
构造 函数 。 它 创建 一 个 用 于 输入 文件 名 的 文本 框 ( Entry ) 以 及 一 个 用 于 获取 指定 文件 的 按钮 
( Button ), 其 中 按钮 的 操作 被 设置 为 方法 fetch_handler。 这 个 事件 处 理 程序 很 像 第 27 章 的 do_fetch， 
它 获取 self.input (文本 框 ) 中 的 查询 ， 并 在 一 条 try/except 语 句 中 调用 self.server.fetch。 

初次 实现 的 源 代码 如 代码 清单 28-1 所 示 。 


代码 清单 28-1 一 个 简单 的 GUI 客 户 端 (simple guiclient.py ) 


from xmlrpc.client import ServerProxy, Fault 
from server import Node, UNHANDLED 

from client import random string 

from threading import Thread 

from time import sleep 

from os import listdir 

import sys 

import tkinter as tk 












































HEAD START = 0.1 # Seconds 
SECRET_LENGTH = 100 





class Client(tk.Frame): 


def init (self, master, url, dirname, urlfile): 
super(). init (master) 
self.node setup(url, dirname, urlfile) 
self.pack() 
self.create widgets() 


def node setup(self, url, dirname, urlfile): 
self.secret = random string(SECRET LENGTH) 
n = Node(url, dirname, self.secret) 
t = Thread(target=n. start) 
t.setDaemon(1) 
t.start() 
# 让 服务 器 先行 一 步 : 
sleep(HEAD START) 
self.server = ServerProxy(url) 
for line in open(urlfile): 
ine = line.strip() 
self.server.hello(line) 





def create widgets(self): 
self.input = input = tk.Entry(self) 
input.pack(side="'left') 











self.submit = submit = tk.Button(self) 
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submit['text'] = "Fetch" 
submit['command'] = self.fetch handler 
submit.pack() 


de 


vd 


fetch handler(self): 
query = self.input.get() 
try: 
self.server.fetch(query, self.secret) 
except Fault as f: 
if f.faultCode != UNHANDLED: raise 
print("Couldn't find the file", query) 





def main(): 
urlfile, directory, url = sys.argv[1:] 


root = tk.Tk() 
root.title("File Sharing Client") 


client = Client(root, url, directory, urlfile) 
client.mainloop() 








if name ==" main ": main() 


除 前 面 解释 过 的 相对 简单 的 代码 外 , 这 个 GUI 客户 端的 工作 原理 与 第 27 章 中 基于 文本 的 客户 
端 相 同 , 使 用 方式 也 类 似 。 要 运行 这 个 程序 , 需要 指定 包含 URL 的 文件 、 要 共享 的 文件 所 在 的 目 
录 以 及 节点 的 URL， 如 下 所 示 : 

$ python simple guiclient.py urlfile.txt files/ http://localhost:8000 

请 注意 ， 文 件 urlfile.txt 必 须 包含 其 他 一 些 节 点 的 URL， 这 样 这 个 程序 才能 发 挥 作用 。 为 进行 
测试 ， 可 在 同一 台 计 算 机 上 启动 允 个 程序 (使 用 不 同 的 端口 号 )， 也 可 在 不 同 的 计算 机 上 运行 它 
们 。 图 28-1 显 示 了 这 个 客户 端的 GUI。 


DD File Sharing Client 己 吕 园 ] 
| Fetch ] 


图 28-1 简单 的 GUI 客户 端 
这 个 实现 管用 ， 但 只 实现 了 部 分 功能 它 还 应 列 出 服务 器 的 文件 目录 包含 的 文件 。 为 此 ， 
必须 对 服务 器 (节点 ) 本 身 进行 扩展 


28.5 ”再 次 实现 


第 一 个 原型 非常 简单 ， 它 确实 实现 了 文件 共享 功能 ,但 对 用 户 不 太 友好 。 如 果 用 户 能 够 知道 
有 哪些 文件 可 用 ( 这 些 文件 可 能 是 程序 启 动 时 就 位 于 文件 目录 中 , 也 可 能 是 后 来 从 其 他 节点 那里 
下 载 的 ) 将 大 有 神 益 。 再 次 实现 将 实现 这 种 列 出 文件 的 功能 ,完整 的 源 代码 如 代码 清单 28-2 所 示 。 
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要 获取 节点 包含 的 文件 的 列表 ， 必 须 添 加 一 个 方法 。 你 可 以 像 对 待 方法 fetch 那 样 使 用 密码 
来 保护 这 个 方法 , 但 让 任何 人 都 可 以 使 用 它 很 有 用 ,而 且 不 会 带 来 任何 安全 风险 。 对 对 象 进行 扩 
展 很 容易 一 一 只 需 从 它 派生 出 子 类 即 可 。 因 此 ， 你 从 Node 派 生出 子 类 ListableNode ， 并 在 其 中 新 
增 一 个 方法 1list， 它 调用 方法 os.1listdir 来 返回 一 个 列表 ， 其 中 包含 指定 目录 中 的 所 有 文件 。 


class ListableNode(Node): 











def list(self): 
return listdir(self.dirname) 


为 访问 这 个 服务 天 方法， 在 客户 端 中 添加 方法 update_]ist。 


def update list(self): 
self.files.Set(self.server.list()) 


属性 self.files 指 向 一 个 列表 框 ， 这 个 列表 框 是 在 方法 create_widgets 中 添加 的 。 在 方法 
create widgets 中 创建 列表 框 时 ， 调 用 了 方法 update_ List。 另外 , 每 次 调用 fetch_handler 时 ,也 
调用 了 方法 update list ( 因为 调用 fetch_handler 可 能 导致 文件 列表 发 生变 化 )。 


代码 清单 28-2 ”最 终 的 GUI 客户 端 (guiclientpy ) 


from xmlrpc.client import ServerProxy, Fault 
from server import Node, UNHANDLED 

from client import random string 

from threading import Thread 

from time import sleep 

from os import listdir 

import sys 

import tkinter as tk 

















HEAD START = 0.1 # 单位 为 秒 
SECRET LENGTH = 100 





class ListableNode(Node): 





def list(self): 
return listdir(self.dirname) 


class Client(tk.Frame): 


def init (self, master, url, dirname, urlfile): 
super(). init (master) 
self.node setup(url, dirname, urlfile) 
self.pack() 


self.create widgets() 


def node setup(self, url, dirname, urlfile): 
self.secret = random string(SECRET LENGTH) 
n = ListableNode(url, dirname, self.secret) 
t = Thread(target=n. start) 
t.setDaemon(1) 
t.start() 





28.5 ”再 次 实现 421 





# 让 服务 器 先行 一 步 : 

sleep(HEAD START) 

self.server = ServerProxy(url) 
for line in open(urlfile): 
line = line.strip() 
self.server.hello(line) 


def create widgets(self): 
self.input = input = tk.Entry(self) 
input.pack(side="left') 





self.submit = submit = tk.Button(self) 
submit['text'] = "Fetch" 

submit['command'] = self.fetch handler 
submit.pack() 





self.files = files = tk.Listbox() 
files.pack(side='bottom', expand=True, fill=tk.BOTH) 
self.update list() 





def fetch handler(self): 

query = self.input.get() 

try: 
self.server.fetch(query, self.secret) 
self.update list() 

except Fault as f: 
if f.faultCode != UNHANDLED: raise 
print("Couldn't find the file", query) 


def update list(self): 
self.files.delete(0, tk.END) 
self.files.insert(tk.END, self.server.l1ist()) 





def main(): 
urlfile, directory, url = sys.argv[1:] 





root = tk.Tk() 
root.title("File Sharing Client") 





client = Client(root, url, directory, urlfile) 
client.mainloop() 


if name == "main ': main() 
就 这 么 简单 。 至 此 ， 你 创建 了 一 个 支持 GUI 的 P2P 文 件 共享 程序 ， 要 运行 它 ， 可 使 用 如 下 命令 : 
$ python guiclient.py urlfile.txt files/ http://localhost:8000 


图 28-2 显 示 了 最 终 的 GUI 客 户 端 。 
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图 28-2 ”最 终 的 GUI 客户 端 


当然 , 这 个 程序 存在 很 大 的 扩展 空间 。 有 关 这 方面 的 建议 , 请 参阅 下 一 他 。 除 了 这 些 建议 外 ， 
你 还 可 充分 发 挥 自 己 的 想象 力 。 


28.6 ”进一步 探索 


第 27 章 提出 了 一 些 有 关 如 何 对 文件 共享 系统 进行 扩展 的 建议 ， 这 里 再 列 出 一 些 。 

口 让 用 户 选 择 要 获取 的 文件 ， 而 不 是 输入 其 文件 名 。 

口 添加 一 个 状态 栏 ， 在 其 中 显示 诸如 Downloading 或 Couldn't find file foo.txt 等 消息 。 

口 想 办 法 让 节点 能 够 共享 “好 友 ”。 例 如 ， 两 个 节点 彼此 认识 后 ， 它 们 都 可 将 自己 认识 的 节 

点 介绍 给 对 方 。 另 外 ， 也 可 让 节点 在 关闭 前 将 其 知道 的 节点 都 告知 所 有 的 邻居 。 

口 在 GUI 中 添加 一 个 显示 已 知 节点 (URL ) 的 列表 , 让 用 户 能 够 添加 新 的 URL 并 将 其 保存 到 
URL 文 件 中 。 














预告 


在 本 章 中 ， 你 编写 了 一 个 功能 齐备 的 GUI P2P 文 件 共享 系统 。 这 项 任务 看 似 很 难 ， 但 实际 上 
没 多 难 。 接 下 来 ， 你 将 迎接 最 后 一 个 也 是 最 严峻 的 挑 成 : 自制 街机 游戏 。 


项 目 10: 自制 街机 游戏 














欢迎 来 到 最 后 一 个 项 目 。Python 功 能 众多 ,你 已 尝试 使 用 了 几 个 ， 现 在 该 大 干 一 场 了 。 在 本 
章 中 ， 你 将 学 习 如 何 使 用 Pygame， 这 个 扩展 让 你 能 够 使 用 Python 编写 功能 齐备 的 全 屏 街 机 游戏 。 
Pygame 虽 然 易于 使 用 ， 功 能 却 非常 强大 。 它 由 多 个 组 件 组 成 ，Pygame 文 档 (参见 Pygame 官 网 
http://pygame.org ) 做 了 详尽 的 介绍 。 本 章 将 介绍 一 些 主要 的 Pygame 概 念 ， 但 鉴于 本 章 的 目标 是 
让 你 起 步 , 因此 不 会 介绍 诸如 声音 和 视频 处 理 等 有 趣 的 功能 。 建议 你 掌握 基本 知识 后 再 自己 去 探 
索 其 他 功能 。 你 可 能 还 想 参 阅 Will McGugan 和 Harrison Kinsley 的 著作 Beginning Python Games 
Development 或 Paul Craven 的 著作 Program Arcade Games with Python and Pygame。 
































29.1 问题 描述 


那么 ， 如 何 编写 计算 机 游戏 呢 ? 游戏 的 基本 设计 过 程 与 其 他 程序 类 似 ， 但 开发 对 象 模型 前 ， 
必须 先 设计 游戏 本 身 ， 如 游戏 包含 的 角色 、 所 处 的 环境 以 及 要 实现 的 目标 。 

为 避免 打 乱 有 关 Pygame 基 本 概念 的 介绍 ， 这 里 创建 的 游戏 比较 简单 。 如 果 你 愿意 ， 完 全 可 
以 创建 更 复杂 的 游戏 。 

这 里 将 创建 的 游戏 是 从 巨 蟒 剧 团 推出 的 著名 短 剧 “Self-Defense Against Fresh Fruit” 改 编 而 
来 的 。 在 这 个 短 剧 中 ， 军 士 长 John Cleese 指 挥 士兵 使 用 防守 战术 抵御 入 侵 者 使 用 新 鲜 水 果 (如 石 
贸 、 糖 水 芒果 、 青 梅 和 香蕉 ) 发 起 的 进攻 。 防 守 战 术 包 括 使 用 枪支 、 放 老虎 以 及 在 敌人 头顶 扔 下 
重 达 16 吨 的 铅 锤 。 在 这 个 游戏 中 , 我 们 将 反 过 来 ， 让 玩家 控制 一 文 香 藤 。 这 支 香 芍 要 躲 开 从 天 而 
降 的 16 吨 铬 锤 ， 尽 力 在 防御 战 中 活 下 来 。 我 想 将 这 个 游戏 命名 为 Squisj 比较 合适 。 


















































注意 阅读 本 章 时 ， 如 果 你 想 尝 试 编写 自己 的 游戏 ， 去 做 就 是 了 。 如 果 你 只 想 修改 这 个 游戏 的 
外 观 ， 只 需 替 换 其 中 的 图 形 ( 几 幅 GIF 或 PNG 图 像 ) 和 一 些 描 述 性 文本 即 可 。 

















这 个 项 目的 目标 是 围绕 着 游戏 设计 展开 的 。 这 款 游戏 必须 像 设计 的 那样 : 香蕉 能 够 移动 ，16 
吨 的 铅 锤 从 天 而 降 。 另 外 , 与 往常 一 样 , 代码 必须 是 模块 化 的 , 且 易 于 扩展 。 一 个 重要 的 需求 是 ， 
设计 应 包含 一 些 游戏 状态 ( 如 游戏 简介 、 关 卡 和 “游戏 结束 ”状态 )， 同 时 可 轻松 地 添加 新 状态 。 
































Q 指 的 是 把 香 蕊 “ 压 扁 ”。 一 一 编者 注 
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29.2 ”有 用 的 工具 


这 个 项 目 需 要 的 工具 只 有 一 个 ， 那 就 是 Pygame， 可 从 其 官网 ( http://pygame.org ) 下 载 。 要 
在 UNIX 中 使 用 Pygame， 可 能 还 需要 安装 其 他 一 些 软 件 , 这 在 Pygame 官 网 提供 的 安装 指南 中 有 详 
细 说 明 。 与 大 多 数 Python 包 一 样 ， 安 装 Pygame 的 最 简单 方式 是 使 用 pip。 

Pygame 发 布 版 包含 多 个 模块 ， 但 在 这 个 项 目 中 大 都 用 不 到 。 接 下 来 的 几 小 节 将 描述 需要 用 
到 的 模块 ( 只 讨论 需要 用 到 的 具体 函数 或 类 )。 除 了 接 下 来 将 描述 的 函数 外 ， 将 用 到 的 各 种 对 象 
( 如 Surface、Group 和 Sprite ) 还 包含 一 些 很 有 用 的 方法 , 我 们 会 在 实现 部 分 用 到 时 对 其 进行 讨论 。 























29.2.1 pygame 


模块 pygame 自 动 导入 其 他 所 有 的 Pygame 模 块 ， 因 此 只 要 在 程序 开头 包含 语句 import pygame， 
就 能 使 用 其 他 模块 ， 如 pygame.display 和 pygame.font。 

模块 pygame 包 含 因数 Surface， 它 返回 一 个 新 的 Surface 对 象 。Surface 对 象 其 实 就 是 一 个 指定 
尺寸 的 空 图 像 ， 可 用 来 绘画 和 传送 。 传 送 (调用 Surface 对 象 的 方法 blit ) 意味 着 在 Surface 之 间 
传输 内 容 。| 传送 的 英文 单词 blit 是 从 技术 术语 块 传输 (block transfer ) 的 简写 BLT 衍 生 而 来 的 。] 

函数 init 是 Pygame 游 戏 的 核心 , 必须 在 游戏 进入 主事 件 循环 前 调用 。 这 个 函数 自动 初始 化 其 
他 所 有 模块 ( 如 font 和 image )。 

如 果 要 捕获 Pygame 特 有 的 错误 ， 就 需要 使 用 error 类 。 



































29.2.2 pygame.locals 
模块 pygame.1locals 包 含 你 可 能 在 自 定义 模块 的 作用 域内 使 用 的 名 称 ( 变量 )， 如 事件 类 型 、 


键 、 视 频 模 式 等 的 名 称 。 可 导入 这 个 模块 的 所 有 内 容 ( from pygame.locals import * )， 但 如 果 
知道 需要 哪些 名 称 ， 应 该 做 更 具体 的 导入 ， 如 from pygame.locals import FULLSCREEN。 

















29.2.3 pygame.display 


模块 pygame.display 包 含 处 理 内 容 显 示 的 函数 ， 这 些 内 容 可 显示 在 普通 窗口 中 ， 也 可 占据 整 
屏幕 。 在 这 个 项 目 中 ， 需 要 用 到 如 下 函数 。 

口 flip: 更 新 显示 。 一 般 而 言 ， 分 两 步 来 修改 当前 屏幕 。 首 先 ， 对 函数 get_surface 返 回 
的 Surface 对 象 做 必要 的 修改 ， 然 后 调用 pygame.display.flip 来 更 新 显示 ， 反 映 出 所 做 
的 修改 。 

口 update: 只 想 更 新 屏幕 的 一 部 分 时 ， 使 用 这 个 函数 ， 而 不 是 flip。 调 用 这 个 函数 时 ， 可 只 
提供 一 个 参数 ， 即 Renderupdates 类 的 方法 draw 返 回 的 矩形 列表 ( 这 个 方法 将 在 接 下 来 讨 
论 模块 pygame.sprite 时 介绍 )。 

口 set_mode: 设置 显示 的 尺寸 和 类 型 。 显示 模式 有 多 种 , 但 这 里 只 使 用 全 屏 模 式 和 默认 模式 
“在 窗口 中 显示 ”。 





全 
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口 set_caption: 设置 Pygame 程 序 的 标题 。 函 数 set_caption 主 要 用 于 游戏 在 窗口 中 运行 (而 
不 是 以 全 屏 模式 运行 ) 时 ， 因 为 标题 将 用 作 窗 口 的 标题 。 

D get_surface: 返回 一 个 Surface 对 象 ， 你 可 在 其 中 绘制 图 形 ， 再 调用 pygame.display.flip 
或 pygame.display.blit。 这 个 项 目 只 使 用 了 Surface 对 和 象 的 一 个 方法 来 绘画 , 这 就 是 blit， 
它 将 一 个 Surface 对 象 中 的 图 形 传输 到 另 一 个 Surface 对 象 的 指定 位 置 。 另 外 ， 还 将 使 用 
Group 对 象 的 方法 draw 在 Surface 上 绘制 Sprite 对 象 。 


























29.2.4 pygame.font 


模块 pygame.font 包 含 函数 Font。 字 体 对 象 用 于 表示 不 同 的 字体 ， 可 用 于 将 文本 演 染 为 可 在 
Pygame 中 作为 普通 图 形 使 用 的 图 像 。 


29.2.5 pygame.sprite 


模块 pygame.sprite 包 含 两 个 非常 重要 的 类 : Sprite 和 Group。 

Sprite 类 是 所 有 可 见 游戏 对 象 ( 在 这 个 项 目 中 ， 是 香 碰 和 重 16 吨 的 铅 锤 ) 的 基 类 。 要 实现 自 
定义 的 游戏 对 象 , 可 从 sprite 派 生出 子 类 , 并 重 写 构 造 函 数 以 设置 其 属性 image 和 Tect ( 这 些 属性 
决定 了 Sprite 的 外 观 和 位 置 )， 同 时 重 写 在 Sprite 可 能 需要 更 新 时 调用 的 方法 update。 

Group 及 其 子 类 的 实例 用 作 Sprite 对 象 的 容器 。 一 般 而 言 ， 使 用 Group 是 个 不 错 的 主意 。 在 简 
单 的 游戏 (如 本 章 的 项 目 ) 中 ， 只 需 创 建 一 个 名 为 sprites 或 allsprites 之 类 的 Group， 并 将 所 有 
sprite 都 添加 到 其 中 。 这 样 ， 当 你 调用 Group 对 象 的 方法 update 时 , 将 自动 调用 所 有 Sprite 对 象 的 
方法 update。 男 外 ，Group 对 象 的 方法 clear 用 于 清除 它 包含 的 所 有 Sprite 对 象 ( 实际 的 清理 工作 
是 使 用 一 个 回调 函数 完成 的 )， 而 方法 draw 可 用 于 绘制 所 有 的 Sprite 对 象 。 

在 这 个 项 目 中 ,将 使 用 Group 的 子 类 RenderUpdates ， 其 方法 draw 返 回 列表 ， 其 中 包含 所 有 受 
到 影响 的 矩形 。 可 将 这 个 列表 传递 给 pygame.display.update， 以 只 更 新 需要 更 新 的 部 分 。 通 过 这 
样 做 ， 有 可 能 极 大 地 改善 游戏 的 性 能 。 









































29.2.6 pygame.mouse 


在 本 章 将 开发 的 游戏 Sguish 中 ， 只 使 用 模块 pygame.mouse 来 做 两 件 事情 隐藏 鼠标 以 及 获取 
鼠标 的 位 置 。 这 两 件 事 分 别 是 使 用 pygame.mouse.set visible(False) 和 pygame.mouse.get pos() 
来 完成 的 。 




















29.2.7 pygame.event 


模块 pygame.event 跟 踪 各 种 事件 ， 如 鼠标 单 击 、 鼠 标 移动 、 按 下 或 松 开 键 等 。 要 获取 最 近 发 
生 的 事件 列表 ， 可 使 用 函数 pygame .event .get。 
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注意 ”如果 只 需要 状态 信息 ,如 pygame.mouse.get pos 返 回 的 鼠标 位 置 ,就 无 需 使 用 pygame.event.get。 
然而 ， 你 需要 确保 Pygame 同 步 地 更 新 ， 为 此 可 定期 调用 函数 pygame.event.pump。 


29.2.8 pygame.image 


模块 pygame.image 用 于 处 理 图 像 ， 如 以 GIF、PNG、JPEG 和 其 他 几 种 文件 格式 存储 的 图 像 。 
在 这 个 项 目 中 , 只 需要 这 个 模块 中 的 函数 10ad, 它 读 取 图 像 文件 并 创建 一 个 包含 该 图 像 的 Surface 
对 象 。 


29.3 ”准备 工作 


对 一 些 Pygame 模 块 的 功能 进行 粗略 了 解 后 ， 该 动手 编写 这 个 游戏 的 第 一 个 原型 了 。 然 而 ， 
这 样 做 之 前 ， 需 要 做 几 项 准备 工作 。 首 先 ， 必 须 确保 安装 了 Pygame， 包 括 模块 image 和 font。( 要 
核实 是 否 安装 了 这 些 模块 ， 可 在 交互 式 Python 解 释 器 中 导入 它们 。) 

你 还 需 准备 几 幅 图 像 。 如 果 要 按 本 章 说 的 那样 呈现 这 个 游戏 的 主题 ， 就 需要 两 幅 图 像 ， 分 别 
表示 重 16 吨 的 铅 锤 和 香 礁 ， 如 图 29-1 所 示 。 这 些 图 像 的 尺寸 无 关 紧要 ,但 最 好 在 100 像 素 x100 像 
素 ~200 像 素 x200 像 素 之 间 。 这 两 幅 图 像 还 应 使 用 常见 的 图 像 文 件 格式 ， 如 GIF、PNG 或 JPEG。 


> 


图 29-1 ”本章 的 游戏 使 用 的 铅 锤 和 香蕉 图 像 












































注意 ”你 可 能 还 想 提供 一 张 启动 屏幕 ( 向 游戏 用 户 问 候 的 第 一 个 屏幕 ) 图 像 。 在 这 个 项 目 中 ， 
我 直接 使 用 了 表示 铅 锤 的 图 像 。 





29.4 初次 实现 


使 用 诸如 Pygame 等 新 工具 开发 程序 时 ， 应 让 第 一 个 原型 尽 可 能 简单 ， 并 将 重点 放 在 学 习 新 
工具 的 基本 知识 ， 而 不 是 程序 本 身 的 细节 上 。 这 样 做 通常 大 有 神 益 。 因 此 ， 在 游戏 Squish 的 第 一 
个 版 本 中 ， 我 们 只 创建 重 16 吨 的 铅 锤 从 天 而 降 的 动画 。 制 作 这 个 动画 需要 的 步骤 如 下 。 
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(1) 使 用 pygame.init、pygame.display.set_mode 和 pygame.mouse.set_visible 初 始 化 Pygame。 
使 用 pygame.display.get_surface 获 取 屏 幕 表 面 ,使 用 方法 fil1 以 白色 填充 屏幕 表面 ， 表 调用 
pygame.display.flip 显 示 所 做 的 修改 。 

(2) 加 载 铅 锤 图 像 。 

(3) 使 用 这 幅 图 像 创建 自 定义 类 Weight( Sprite 的 子 类 ) 的 一 个 实例 。 将 这 个 对 象 添加 到 Render 
Updates 编 组 sprites 中 。( 处 理 多 个 Sprite 对 象 时 ， 这 样 做 很 有 帮助 。) 

(4) 使 用 pygame.event.get 获 取 最 近 发 生 的 所 有 事件 ,并 依次 检查 这 些 事件 。 如 果 发 现 事 件 QU IT 
或 因 按 下 Escape 键 (K_ESCAPE ) 而 触发 的 KEYDOWN 事 件 ， 就 退出 程序 。( 事件 类 型 和 键 分 别 存储 在 事 
件 对 象 的 属性 type 和 key 中 。 诸 如 QUIT、KEYDOWN 和 K_ESCAPE 等 常量 可 从 模块 pygame.locals 导 入 。) 

(5) 调用 编组 sprites 的 方法 clear 和 update。 方 法 clear 使 用 回调 函数 来 清除 所 有 的 Sprite 对 象 
(这 里 是 铅 锤 )， 而 方法 update 调 用 Weight 实 例 的 方法 update( 你 必须 在 eight 类 中 实现 方法 up 
date )。 

(6) 调用 sprites.draw 并 将 屏幕 表面 作为 参数 ， 以 便 在 当前 位 置 绘制 铅 锤 (每 次 调用 Weight 实 例 
的 update 方 法 后 ， 位 置 都 将 发 生变 化 )。 

(7) 调用 pygame.display.update, 并 将 sprites.draw 返 回 的 矩形 列表 作为 参数 ,只 更 新 需要 更 
新 的 部 分 。( 如 果 你 不 在 乎 性 能 ， 可 使 用 pygame.display.flip 来 更 新 整个 屏幕 。) 

(8) 重复 第 4~7 步 。 

代码 清单 29-1 列 出 了 实现 这 些 步 又 的 代码 。 在 你 退出 游戏 , 如 关闭 窗口 时 , 将 发 生 QUIT 事 件 。 


代码 清单 29-1 简单 的 “ 铅 锤 从 天 而 降 ” 动 画 (weights.py ) 


import sys, pygame 
from pygame.locals import * 
from random import randrange 





































































































class Weight(pygame.sprite.Sprite): 


def init (self, speed): 
pygame.sprite.Sprite. init (self) 
self.speed = speed 
# 绘制 Sprite 对 象 时 要 用 到 的 图 像 和 矩形: 
self.image = weight image 
self.rect = self.image.get rect() 
self.reset() 











def reset(self): 
将 铅 狂 移 到 屏幕 项 端的 一 个 随机 位 置 


self.rect.top = -self.rect.height 
self.rect.centerx = randrange(screen size[0]) 


de 


二 


update(self) : 


更 新 下 一 帧 中 的 铅 钵 
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nnn 


self.rect.top += self.speed 


if self.rect.top > screen size[1]: 
self.reset() 
# 初始 化 
pygame.init() 
screen size = 800, 600 
pygame.display.set mode(screen size, FULLSCREEN) 
pygame.mouse.set visible(0) 


# 加 载 铅 锤 图 像 
weight image = pygame.image.1oad( "weight.png ') 
weight image = weight image.convert()# 以 便 与 显示 匹配 





# 你 可 能 想 设置 不 同 的 速度 
speed = 5 


# 创建 一 个 Sprite 对 象 编组 ， 并 在 其 中 添加 一 个 Weight 实 例 
sprites = pygame.sprite.RenderUpdates() 
sprites.add(Weight(speed)) 


# 获取 并 填充 屏幕 表面 
screen = pygame.display.get surface() 
bg = (255，255，255) # 白色 

screen.fill(bg) 
pygame.display.flip() 


# 用 于 清除 Sprite 对 象 : 
def clear callback(surf, rect): 
surf.fill(bg, rect) 





while True: 

# 检查 退出 事件 : 

for event in pygame.event.get(): 
if event.type == QUIT: 
sys.exit() 
if event.type == KEYDOWN and event.key == K_ESCAPE: 
sys.exit() 
# 清除 以 前 的 位 置 : 
sprites.clear(screen, clear callback) 
# 更 新 所 有 的 Sprite 对 象 : 
sprites.update( 
# 绘制 所 有 的 Sprite 对 象 : 
updates = sprites.draw(screen) 
# 更 新 必要 的 显示 部 分 : 
pygame.display.update(updates) 


要 运行 这 个 程序 ， 可 使 用 下 面 的 命令 : 
$ python weights.py 





























执行 这 个 命令 时 ， 必 须 确保 weights.py 和 weight.png ( 铅 锐 
示 了 这 个 程序 运行 时 的 屏幕 截图 。 








E 图 像 ) 都 在 当前 目录 中 。 图 29-2 显 
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图 29-2 ”简单 的 “ 铅 锤 从 天 而 降 ” 动 夯 


这 些 代码 大 都 是 不 言 自明 的 ,但 有 几 点 需要 解释 一 下 。 

口 所 有 的 Sprite 对 象 都 有 属性 image 和 rect， 其 中 前 者 应 是 一 个 Surface 对 象 (图像 )， 而 后 
者 应 是 一 个 矩形 对 象 ( 只 需 使 用 self.image.get rect() 初 始 化 它 即 可 )。 绘 制 Sprite 对 象 
时 ， 将 用 到 这 两 个 属性 。 通 过 修改 self.rect， 可 移动 Sprite 对 象 。 

口 Surface 对 象 包含 方 法 convert ， 可 用 于 创建 使 用 不 同 颜色 模式 的 副本 。 你 无 需 关 心细 节 ， 
只 需 在 调用 convert 时 不 提供 任何 参数 即 可 。 这 将 根据 当前 显示 量 身 定制 一 个 Surface 对 
象 ， 从 而 最 大 限度 地 提高 其 显示 速度 。 

口 颜色 是 使 用 RGB 元 组 ( 红 - 绿 - 蓝 , 每 个 值 的 取 值 范 围 都 是 0~255 ) 指定 的 , 因此 元 素 (255， 
255，255) 表 示 白 色 。 

要 修改 矩形 〈 如 这 里 的 self.rect )， 可 设置 其 属性 (top、bottom、left、right、topleft、 
topright、 bottomleft、 bottomright、 size、 width、 height、 center、 centerx、 centery、 midleft、 
midright、midtop 和 midbottom )， 也 可 调用 诸如 inflate、move 等 方法 。 有 关 这 些 属 性 和 方法 的 描 
述 ， 请 参阅 Pygame 文 档 ( http://pygame.org/docs/ref/rect.html )。 

Pygame 技 术 就 位 后 ， 该 稍微 扩展 和 重 构 游戏 的 逻辑 了 。 
































29.5 ”再 次 实现 


在 本 节 中 ,我 不 演示 如 何 逐 步 设 计 和 实现 游戏 , 而 在 源 代码 中 包含 大 量 的 注释 和 文档 字符 串 ， 
如 代码 清单 29-2~ 代 码 清 单 29-4 所 示 。 你 可 通过 研究 源 代码 来 了 解 其 工作 原理 ， 但 这 里 还 是 简单 
地 说 说 其 中 的 要 点 (以 及 一 些 不 那么 直观 的 细节 )。 
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口 这 个 游戏 包含 5 个 文件 : 包含 各 种 配置 变量 的 config.py; 包含 游戏 对 象 的 实现 的 objects.py; 

包含 主 游戏 类 和 各 种 游戏 状态 类 的 squish.py; 游戏 使 用 的 图 像 weight.png 和 banana.png。 

口 矩形 的 方法 clamp 确 保 一 个 矩形 位 于 男 一 个 矩形 内 ， 并 在 必要 时 移动 这 个 矩形 。 这 个 方法 

用 于 避免 香 兢 移 到 屏幕 外 。 

口 矩形 的 方法 inflate 调 整 矩形 的 尺寸 一 一 在 水 平和 垂直 方向 调整 指定 数量 的 像素 。 这 个 方 

法 用 于 收缩 香 获 的 边界 ， 从 而 在 香蕉 和 铅 锤 重 县 到 一 定 程 度 后 ， 才 认为 香 芍 被 磺 到 。 

口 这 个 游戏 本 身 由 一 个 游戏 对 象 和 各 种 状态 组 成 。 游 戏 对 象 在 特定 时 间 点 只 有 一 种 状态 ， 
而 状态 负责 处 理事 件 并 在 屏幕 上 显示 自己 。 状 态 还 能 让 游戏 切换 到 另 一 种 状态 。 例 如 ， 
状态 Level 可 以 让 游戏 切换 到 Game0ver 状 态 。 

就 这 些 。 要 运行 这 个 游戏 ， 可 执行 文件 squish.py， 如 下 所 示 : 

$ python squish.py 

你 必须 确保 其 他 文件 与 squish.py 位 于 同一 个 目录 中 。 在 Windows 中 ， 可 双击 文件 squish.py 来 
执行 它 。 


代码 清单 29-2 游戏 Squish 的 配置 文件 ( config.py ) 
# 游戏 Squish 的 配置 文件 
































# 可 根据 偏好 随意 修改 配置 变量 
# 如 果 游 戏 的 节奏 太 快 或 太 慢 ， 可 尝试 修改 与 速度 相关 的 变量 





# 要 在 这 个 游戏 中 使 用 其 他 图 像 ， 可 修改 这 些 变量 : 
banana_image = “banana.png 
weight image = 'weight.png’ 
splash image = 'weight.png’ 


# 这 些 配置 决定 了 游戏 的 总 体外 观 : 
screen Size = 800, 600 
background color = 255, 255, 255 
margin = 30 

full screen = 1 

font size = 48 


# 这 些 设 置 决定 了 游戏 的 行为 : 
drop speed = 1 

banana speed = 10 

speed increase = 1 
weights per level = 10 
banana pad top = 40 
banana_ pad side = 20 


代码 清单 29-3 ”游戏 Squish 使 用 的 对 象 ( objects.py ) 


import pygame, config, os 
from random import randrange 


"这 个 模块 包含 游戏 Squish 使 用 的 游戏 对 象 " 
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class SquishSprite(pygame.sprite.Sprite): 


游戏 Squish 中 所 有 精灵 (sprite) 的 超 类 。 构 造 函 数 
加 载 一 幅 图 像 ， 设 置 精灵 的 外 接 答 形 和 移动 范围 。 移 
动 范围 取决 于 屏幕 尺 二 和 边 距 











def _init (self, image): 
super(). init () 
self.image = pygame.image.1load(image).convert() 
self.rect = self.image.get rect() 

screen = pygame.display.get surface() 

shrink = -config.margin * 2 

self.area = screen.get rect().inflate(shrink, shrink) 





class Weight(SquishSprite): 


从 天 而 降 的 铅 锤 。 它 使 用 5SquishSprite 的 构造 函数 来 设置 表 
示 铅 锤 的 图 像 ， 并 以 其 构造 函数 的 一 个 参数 指定 的 速度 下 降 





def init (self, speed): 
super(). init (config.weight image) 
self.speed = speed 
self.reset() 


def reset(self): 


将 铅 狂 移 到 屏幕 顶端 (使 其 刚好 看 不 到 ) ， 并 放 在 一 个 随机 的 水 平 位 置 
x = randrange(self.area.left, self.area.right) 
self.rect.midbottom = x, 0 


def update(self): 
根据 铅 狂 的 速度 垂直 向 下 移动 相应 的 距离 。 同 时 ， 根 据 
铅 狂 是 否 已 到 达 屏 幕 底部 相应 地 设置 属性 1anded 
self.rect.top += self.speed 
self.landed = self.rect.top >= self.area.bottom 


class Banana(SquishSprite): 


绝望 的 和 在 巷 。 它 使 用 SquishSprite 的 构造 函数 来 设置 在 巷 图 像 ， 并 停留 
在 屏幕 底部 附近 ， 且 水 平 位 置 由 和 鼠标 的 当前 位 置 决定 (有 一 定 的 限制 ) 


def _ init (self): 
super(). init (config.banana image) 
self.rect.bottom = self.area.bottom 
# 这 些 内 边 距 表示 图 像 中 不 属于 香蕉 的 部 分 
# 如 果 铅 锤 进入 这 些 区 域 ， 并 不 认为 它 砸 到 了 香蕉 








432 第 29 章 项 目 10: 自制 街机 游戏 





def 


def 


self.pad top = config.banana pad top 
self.pad side = config.banana pad side 


update(self) : 
将 香 巷 中 心 的 x 坐 标 设置 为 鼠标 的 当前 x 坐 标 ， 再 使 用 
矩形 的 方法 Clamp 确 保 香 若 位 于 允许 的 移动 范围 内 





self.rect.centerx = pygame.mouse.get pos()[0] 
self.rect = self.rect.clamp(self.area) 


touches(self, other): 


nn 


判断 香蕉 是 否 与 另 一 个 精灵 (如 铅 锤 ) 发 生 了 碰撞 。 这 里 没有 直接 
使 用 给 形 的 方法 colliderect，, 而 是 先 使 用 算 形 的 方法 inflat 以 及 
pad_side 和 pad _top 计 算出 一 个 新 的 答 形 ， 这 个 徐 形 不 包含 香蕉 图 
像 顶 部 和 两 边 的 “空白 ”区 域 

# 通过 别 除 内 边 距 来 计算 bounds: 

bounds = self.rect.inflate(-self.pad side, -self.pad top) 
# 将 bounds 移 动 到 与 香蕉 底部 对 齐 : 

bounds.bottom = self.rect.bottom 

# 检查 bounds 是 否 与 另 一 个 对 象 的 rect 重 司 

return bounds.colliderect(other.rect) 





代码 清单 29-4 ”游戏 主 模 块 ( squish.py ) 


import os, sys, pygame 
from pygame.locals import * 
import objects, config 


"这 个 模块 包含 游戏 Squish 的 主 游戏 逻辑 " 


class State: 


nn 


游戏 状态 超 类 ， 能 够 处 理事 件 以 及 在 指定 表面 上 显示 自己 


nn 


def 


def 


handle(self, event): 


只 处 理 退 出 事件 的 默认 事件 处 理 

if event.type == QUIT: 
sys.exit() 

if event.type == KEYDOWN and event.key == K_ESCAPE: 
sys.exit() 


first display(self, screen): 


在 首次 显示 状态 时 使 用 ， 它 使 用 背景 色 填充 屏幕 


nn 


screen.fill(config.background color) 
# 别 忘 了 调用 人 ip， 把 修改 反映 出 来 : 
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pygame.display.flip() 


def display(self, screen): 


在 后 续 显 示 状 态 时 使 用 ， 其 默认 行为 是 什么 者 不 做 


pass 


class Level(State): 


游戏 关卡 。 它 计算 落下 了 多 少 个 铅 狂 ， 移 动 精灵 并 执行 其 他 与 游戏 远 辑 相关 的 任务 


def _ init (self, number=1): 
self.number = number 
# 还 需 艇 开 多 少 个 铅 狂 才能 通过 当前 关卡 ? 
self.remaining = config.weights per level 


speed = config.drop speed 

# 每 过 一 关 都 将 速度 提高 speed increase: 

speed += (self.number-1) * config.speed increase 
# 创建 铅 锤 和 香 若 : 

self.weight = objects.Weight(speed) 

self.banana = objects.Banana() 

both = self.weight，self.banana # 可 包含 更 多 精灵 
self.sprites = pygame.sprite.RenderUpdates (both) 


def update(self, game): 

"更 新 游戏 状态 " 
# 更 新 所 有 的 精灵 : 
self.sprites.update() 
# 如 果 香 莅 和 铅 钵 发 生 了 碰撞 ， 就 让 游戏 切换 到 Game0ver 状 态 : 
if self.banana.touches(self.weight) : 

game.next_state = GameOver() 
# 否则 ， 如 果 铅 狂 已 落 到 地 上 ， 就 将 其 复位 
# 如 果 躲 开 了 当前 关卡 内 的 所 有 铅 狂 ， 就 让 游戏 切换 到 LevelCleared 状 态 : 
elif self.weight.landed: 

self.weight.reset() 

self.remaining -= 1 

if self.remaining == 

game.next state = LevelCleared(self.number) 


def display(self, screen): 
在 第 一 次 显示 ( 清 屏 ) 后 显示 状态 。 不 同 于 firstDisplay， 
这 个 方法 调用 pygame.display.update 并 向 它 传 递 一 个 需要 
更 新 的 矩形 列表 ， 这 个 列表 是 由 Self.sprites.draw 提 供 的 
screen.fill(config.background color) 
updates = self.sprites.draw(screen) 
pygame.display.update(updates) 





class Paused(State): 
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简单 的 游戏 暂停 状态 ， 用 户 可 通过 按 任 何 键盘 键 或 单 击 鼠 标 来 结束 这 种 状态 


finished = 0 # 用 户 结束 暂停 了 吗 ? 
image = None # 如 果 需 要 显示 图 像 ， 将 这 个 属性 设置 为 一 个 文件 名 
text = ''  # 将 这 个 属性 设置 为 一 些 说 明 性 文本 





def handle(self, event): 
这 样 来 处 理事 件 : 将 这 项 任务 委托 给 State ( 它 只 处 理 退 出 事件 ) ， 
并 对 按键 和 鼠标 单 击 做 出 响应 。 如 果 用 户 按 下 了 键盘 键 或 单 击 了 鼠标， 
就 将 self.finished 设 置 为 True 
State.handle(self, event) 
if event.type in [MOUSEBUTTONDOWN, KEYDOWN]: 
self.finished = 1 


def update(self, game): 
更 新 关卡 。 如 果 用 户 按 下 了 键盘 键 或 单 击 了 鼠标 ( 即 Self.finished 为 True) ， 
就 让 游戏 切换 到 (由 子 类 实现 的 方法 ) self.next_state() 返 回 的 状态 
if self.finished: 
game.next state = self.next state() 


def first display(self, screen): 


在 首次 显示 暂停 状态 时 调用 ， 它 绘制 图 像 (如 果 指 定 了 ) 并 泻 染 文本 
# 首先 ， 通 过 使 用 背景 色 填 充 屏 幕 来 清 屏 : 


screen.fill(config.background color) 


# 创建 一 个 使 用 默认 外 观 和 指定 字号 的 Font 对 象 : 
font = pygame.font.Font(None, config.font size) 


# 获取 Self.text 中 的 文本 行 ， 但 忽略 开头 和 末尾 的 空 行 : 
lines = self.text.strip().splitlines() 


# 使 用 font.get linesize() 获 取 每 行文 本 的 高 度 ， 并 计算 文本 的 总 高 度 : 
height = len(lines) * font.get linesize() 


# 计算 文本 的 位 置 (在 屏幕 上 居中 ) : 
center, top = screen.get rect().center 
top -= height // 2 


# 如 果 有 图 像 要 显示 : 
if self.image: 
# 加 载 该 图 像 : 
image = pygame.image.1load(self.image).convert() 
# 获取 其 rect: 
r = image.get rect() 
# 将 文本 下 移 图 像 高 度 一 半 的 距离 
top += T.height // 2 
# 将 图 像 放 在 文本 上 方 20 像 素 处 : 
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r.midbottom = center, top - 20 


# 将 图 像 传输 到 屏幕 上 : 


screen.blit(image, 1) 





antialias = 1 # 消除 文本 的 锯 疮 
black = 0，0，0 # 使 用 黑色 泻 染 文 本 


# 从 计算 得 到 的 top 处 开始 泻 染 所 有 的 文本 行 ， 
# 每 泻 染 一 行 都 向 下 移动 font.get_ linesize() 像 素 : 
for line in lines: 
text = font.render(line.strip(), antialias, black) 
T = text.get rect() 
r.midtop = center, top 
screen.blit(text, r) 
top += font.get linesize() 
# 显示 所 做 的 所 有 修改 : 
pygame.display.flip() 








class Info(Paused): 


显示 一 些 游戏 信息 的 简单 暂停 状态 ， 紧 跟 在 这 个 状态 后 面 的 是 Level 状 态 (第 一 关 ) 


next state = Level 

text = """ 

In this game you are a banana, 

trying to survive a course in 
self-defense against fruit, where the 
participants will "defend" themselves 
against you with a 16 ton weight. 





class StartUp(Paused): 


显示 启动 图 像 和 欢迎 消息 的 暂停 状态 ， 紧 跟 在 它 后 面 的 是 Info 状 态 
next state = Info 

image = config.splash image 
text = """ 
Welcome to Squish, 

the game of Fruit Self-Defense''’ 





class LevelCleared(Paused): 


指出 用 户 已 过 关 的 暂停 状态 ， 紧 跟 在 它 后 面 的 是 表示 下 一 关 的 Level 状 态 


def init (self, number): 
self.number = number 
self.text = '''Level {} cleared 
Click to start next level'''.format(self.number) 





def next state(self): 
return Level(self.number + 1) 
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class GameOver(Paused): 


指出 游戏 已 结束 的 状态 ， 紧 跟 在 它 后 面 的 是 表示 第 一 关 的 Level 状 态 


nn 


next state = Level 

text = """ 

Game Over 

Click to Restart, Esc to Out 


class Game: 


nn 


负责 主事 件 循环 (包括 在 不 同 游戏 状态 之 间 切 换 ) 的 游戏 对 象 


nn 


def _init (self, *args): 
# 获取 游戏 和 图 像 所 在 的 目录 : 
path = os.path.abspath(args[0]) 
dir = os.path.split(path)[o0] 
# 切换 到 这 个 目录 ， 以 便 之 后 能 够 打开 图 像 文件 : 
os.chdir(dir) 
# 最 初 不 处 于 任何 状态 : 
self.state = None 
# 在 第 一 次 事件 循环 和 近代 中 切换 到 StartUp 状 态 : 
self.next state = Startup() 








def run(self): 


这 个 方法 设置 一 些 变量 。 它 执行 一 些 重 要 的 初始 化 任务 ， 并 进入 主事 件 循环 


pygame.init()# 初始 化 所 有 的 Pygame 模 块 





# 决定 在 窗口 还 是 整个 屏幕 中 显示 游戏 : 
有 as # 默认 在 窗口 中 显示 游戏 


if config.full screen: 
flag = FULLSCREEN # 全 屏 模 式 
screen size = config.screen size 
screen = pygame.display.set mode(screen size, flag) 


pygame.display.set caption('Fruit Self Defense') 
pygame.mouse.set visible(False) 


# 主事 件 循环 : 
while True: 
# (1) 如 果 nextState 被 修改 ， 就 切换 到 修改 后 的 状态 并 显示 它 (首次 ) : 
if self.state != self.next state: 
self.state = self.next state 
self.state.first display(screen) 
# (2) 将 事件 处 理工 作 委 托 给 当前 状态 : 
for event in pygame.event.get(): 
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self.state.handle(event) 
# (3) 更 新 当前 状态 : 
self.state.update(self) 
# (4) 显 示 当 前 状态 : 
self.state.display(screen) 





if name == ' main 
game = Game(*sys.argv) 
game.run() 


图 29-3~ 图 29-6 显 示 了 这 个 游戏 运行 时 的 一 些 屏幕 截图 。 


Welcome to Squish, 
the game of Fruit Self-Defense 








图 29-3 ”游戏 Squish 的 开始 屏幕 





> 

















图 29-4 ”就 要 被 压 扁 的 香 克 
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Level 42 cleared 


Click to start next level 














图 29-5 ” “过关 ”屏幕 


Game Over 
Click to Restart, Esc to Quit 











图 29-6 “游戏 结束 ”屏幕 


29.6 ”进一步 探索 


下 面 是 一 些 改进 这 个 游戏 的 点 子 。 
口 添加 声音 。 
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口 记录 得 分 。 例 如 ， 每 躲 开 一 个 铅 锤 得 16 分 。 使 用 文件 或 在 线 服 务 器 存储 最 高 得 分 如 何 ? 
为 此 可 分 别 使 用 第 24 章 和 第 27 章 讨论 的 asyncore 和 XML-RPC。 

口 让 更 多 的 物体 同时 从 天 而 降 。 

口 将 逻辑 反 过 来 ， 要 求 玩 家 尽 可 能 撞击 而 不 是 避 开 从 天 而 降 的 物体 ， 就 像 Peter Goode 开 发 
的 老 游戏 Egg Catcher 那 样 ( 游戏 Squish 主 要 借鉴 了 这 球 游 戏 )。 

口 让 玩家 有 多 条 “ 命 ”。 

口 创建 游戏 的 可 执行 版 (详情 请 参阅 第 18 章 )。 

有 关 更 精致 ( 且 娱 乐 性 极 高 ) 的 Pygame 编 程 示 例 ， 请 参阅 Pygame 维 护 者 Pete Shinners 开 发 的 
游戏 SolarWolf ( http://www.pygame.org/shredwheat/solarwolf )。Pygame 官 网 提供 了 丰富 的 信息 ， 还 有 
其 他 几 个 游戏 。 如 果 你 通过 尝试 Pygame 迷 上 了 游戏 开发 ， 可 能 想 参 阅 网 站 http://www.gamedev.net 
或 http://gamedev.stackexchange.com。 通 过 在 网 上 搜索 还 可 找到 很 多 其 他 类 似 的 网 站 。 






































预告 








这 样 就 全 部 结束 了 ,你 已 完成 了 最 后 一 个 项 目 。 如 果盘 点 一 下 取得 的 成 果 ， 你 应 该 感到 非常 
满意 ( 假设 你 跟着 完成 了 所 有 的 项 目 )。 本 书 介绍 了 广阔 的 主题 ， 让 你 大 致 领略 了 Python 编程 领 
域 。 但 愿 你 很 享受 这 次 “旅行 ”， 同 时 祝 你 在 以 后 的 Python 编程 旅程 中 有 好 运 相伴 。 


























简明 教程 














这 是 一 个 简明 教程 ， 根 据 我 在 网 上 发 表 的 教程 “Instant Python” 改 编 而 成 ， 针 对 的 读者 是 
熟悉 一 两 门 语言 ， 但 想 快 速 掌握 Python 的 程序 员 。 有 关 如 何 下 载 和 执行 Python 解释 器 的 信息 ， 
请 参阅 第 1 章 。 


A.1 基础 知识 


要 想 对 Python 语言 有 基本 认识 ， 可 将 其 视 为 伪 代 码 ， 因 为 它们 很 像 。 变 量 没 有 类 型 ， 因 此 不 
需要 声明 。 变 量 在 你 给 它 赋 值 时 出 现 ， 在 你 不 再 使 用 时 消失 。 赋 值 是 使 用 运算 符 = 完 成 的 ， 如 下 
所 示 : 

x = 42 

请 注意 ， 相 等 性 检查 由 运算 符 == 执 行 。 可 同时 给 多 个 变量 赋值 ， 如 下 所 示 : 

xy),zZ = 1,2,3 


first, second = second, first 
a= b= 123 


语句 块 通过 且 只 能 通过 缩 进来 表示 (不 使 用 begin/end， 也 不 使 用 花 括号 )。 下 面 是 一 些 常见 
的 控制 结构 : 


if x < 5 or (x > 10 and x < 20): 
print("The value is OK.") 


























if x<« 5 or 10< x« 20: 
print("The value is OK.") 





for i in [1, 2, 3, 4, 5]: 
print("This is iteration number", i) 


X = 10 

while x >= 0: 
print("x is still not negative.") 
XX = 


其 中 开头 两 个 示例 等 价 。 
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for 循 环 中 的 索引 变量 遍历 ( 使 用 方 括号 表示 的 ) 列表 "的 元 素 。 要 编写 普通 的 for 循 环 〈 即 


计数 循环 )， 可 使 用 内 置 函数 range。 


# 打印 0~99 ( 含 ) 的 值 
for value in range(100): 
print(value) 


以 村 J 头 的 行为 注释 将 被 解释 器 忽略 。 
































你 现在 知道 得 足够 多 ,， 从 理论 上 说 能 够 使 用 Python 实现 任何 算法 了 。 下 面 来 介绍 基本 的 用 户 
交互 。 要 提示 用 户 输入 并 获取 这 些 输 入 ， 可 使 用 内 置 函 数 input。 





x = float(input("Please enter a number:")) 
print("The square of that number is", x * x) 





函数 input 显 示 ( 可 选 的 ) 提示 语 ， 并 让 用 户 输入 一 个 字符 串 。 在 这 里 ， 需 要 的 是 一 个 数 ， 


因此 使 用 float 将 输入 转换 为 浮 点 数 。 





介绍 控制 结构 、 输 入 和 输出 后 , 再 来 介绍 一 些 华丽 的 数据 结构 , 其 中 最 重要 的 是 列表 和 字典 。 














列表 是 使 用 方 括号 表示 的 ， 自 然 可 以 舰 套 。 
name = ["Cleese", "John"] 


X= [[fy 2 3]> [ys 2)3 TL) 














列表 的 优点 之 一 是 , 可 通过 索引 和 切片 访问 其 单个 元 素 或 一 系列 元 素 。 与 众多 其 他 的 语言 一 
样 ,索引 是 通过 在 列表 名 后 面 加 上 用 方 括号 括 起 的 数字 实现 的 。( 请 注意 ,第 一 个 元 素 的 索引 为 0。) 











print(name[1], name[0]) # Prints "John Cleese" 


name[0] = "Smith" 


切片 几乎 与 索引 相同 ， 但 需要 指定 起 始 索引 和 结束 索引 ， 并 用 冒号 ( : ) 分 隔 它们 。 


二 ["SPAM"， "SPAM", "SPAM", "SPAM", "SPAM", "eggs", and "SPAM"] 


print(x[5:7]) # Prints the list ["eggs", "and"] 


请 注意 , 不 包含 结束 索引 对 应 的 元 素 。 如 果 省 略 了 一 个 索引 , 将 假定 你 要 从 列表 开头 开始 或 
到 列表 未 尾 结束 。 换 而 言 之 , 切片 x[ :3] 意 味 着 从 列表 开头 到 第 4 个 元 素 ( 不 含 ) 之 间 的 所 有 元 素 。 
(为 何 说 是 第 4 个 元 素 呢 ? 因为 索引 是 从 0 开始 的 。) 切片 x[3: ] 则 意味 着 从 第 4 个 元 素 〈 含 ) 开始 到 























最 后 一 个 元 素 ( 含 ) 的 所 有 元 素 。 最 有 趣 的 是 ， 


末尾 往 前 数 的 第 3 个 元 素 。 


你 还 可 使 月 


























日 负数 索引 。 例 如 ，x[-3] 就 是 从 列表 


现在 来 说 说 字典 。 简 单 地 说 ,字典 类 似 于 列表 ， 只 是 其 内 容 是 无 序 的 。 既 然 这 样 ， 那么 如 何 
进行 索引 呢 ? 字典 的 每 个 元 素 都 有 键 〈 名 称 )， 可 用 来 查找 元 素 ， 就 像 真正 的 字典 一 样 。 下 面 的 


示例 演示 了 创建 字典 的 语法 : 


phone = {"Alice" : 23452532, "Boris"” : 252336， 


"Clarice" : 2352525, "Doris" : 23624643 } 


person = {'first name': "Robin", 'last name': "Hood", 


'occupation': "Scoundrel" } 





实际 上 是 可 迭代 对 象 。 
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要 获得 person 的 职业 ， 可 使 用 表达 式 person["occupation"]。 要 修改 person 的 姓 ， 可 这 样 做 : 





person['last name'] = "of Locksley" 
很 简单 吧 。 与 列表 一 样 ， 字 典 也 可 包含 其 他 字典 或 列表 。 当 然 ， 列 表 也 可 包含 字典 。 通 过 这 


样 的 能 套 ， 可 轻松 地 创建 非常 复杂 的 数据 结构 。 
A.2 ”函数 


下 一 步 是 抽象 。 你 要 给 代码 段 指定 名 称 ,， 并 使 用 一 些 参 数 来 调用 它 。 换 而 言 之 ,你 想 定义 函 
数 (也 叫 过 程 )。 这 很 容易 ， 只 需 使 用 关键 字 def， 如 下 所 示 : 
def square(x): 


return x* x 


print(square(2)) # Prints out 4 


return 语 句 用 于 从 函数 返回 值 。 

向 函数 传递 参数 时 ,就 将 值 赋 给 了 参数 ， 即 创建 了 一 个 新 引用 。 这 意味 着 可 在 函数 中 直接 修 
改 原始 值 ， 但 如 果 让 参数 指向 其 他 东西 (重新 绑 定 它 )， 将 不 会 影响 原始 值 。 这 与 Java 中 类 似 。 
我 们 来 看 一 个 示例 : 


def change(x) : 











x[1] = 4 
和 [1， 2， 3] 
change(y) 


print(y) # 打印 [1,4,3] 

如 你 所 见 , 传人 了 原始 列表 , 如 果 函 数 修改 了 它 , 这 些 修改 将 反映 到 调用 函数 的 地 方 。 然 而， 
请 注意 下 述 函 数 的 行为 ， 其 中 的 函数 体重 新 绑 定 了 参数 : 

def nochange(x): 


X = 0 
y=1 
nochange(y) 


print(y) # 打印 1 

这 次 y 没 有 变 , 为 什么 呢 ? 因为 你 没有 修改 它 的 值 ! 传人 的 值 是 数 1， 而 你 不 能 像 修 改 列 表 那 
样 修改 数 。 数 1 永远 是 数 1。 在 这 个 示例 中 ， 修 改 的 是 参数 x 指向 的 内 容 ， 而 这 种 修改 不 会 影响 调 
用 环境 。 

Python 提 供 了 很 棒 的 命名 参数 和 默认 参数 等 ， 还 允许 函数 接受 数量 可 变 的 参数 。 有 关 这 方面 
的 详细 信息 ， 请 参阅 第 6 章 。 

如 果 你 知道 如 何 使 用 函数 , 那么 刚才 讲 的 内 容 基 本 上 涵盖 了 你 需要 知道 的 有 关 Python 函 数 的 
所 有 知识 。 

然而 ， 在 Python 中 ， 函 数 也 是 值 ， 知 道 这 一 点 可 能 会 有 所 帮助 。 因 此 ， 如 果 有 函数 square， 
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就 可 以 像 下 面 这 样 做 : 
queeble = Square 
print(queeble(2)) # 打印 4 


调用 函数 时 , 即便 没有 提供 任何 参数 , 也 不 能 省 略 括号 , 即 必须 写成 doit(), 而 不 能 写成 doit。 
如 刚才 所 示 , doit 只 将 函数 本 身 作为 一 个 值 返 回 ,。 这 也 适用 于 对 象 的 方法 ,方法 将 在 下 一 节 介 绍 。 


A.3 对象 及 相关 内 容 


这 里 假设 你 知道 面向 对 象 编程 的 工作 原理 ， 否 则 本 节 的 内 容 可 能 就 难以 理解 了 。 即 便 如 此 ， 
也 没有 关系 ， 你 可 先 不 使 用 对 象 ， 也 可 去 阅读 第 7 章 。 
在 Python 中 ， 使 用 关键 字 class 来 定义 类 ， 如 下 所 示 : 


Class Basket : 




















千 万 别 忘 了 参数 self 
def init (self, contents=None): 
self.contents = contents or [] 





def add(self, element): 
self.contents.append(element) 





def print me(self): 
result = "" 
for element in self.contents: 
result = result + " " + repr(element) 
print("Contains:", result) 


对 于 这 个 示例 ， 有 几 点 需要 说 明 。 
口 可 像 这 样 来 调用 方法 : object.method(arg1，arg2)。 
口 有 些 参数 是 可 选 的 并 指定 了 默认 值 ( 这 在 前 一 节 介 绍 函 数 时 说 过 )， 这 是 通过 像 下 面 这 样 
定义 的 : 
def spam(age=32): ... 
口 调用 这 里 的 方法 spam 时 , 可 指定 一 个 参数 , 也 可 不 指定 任何 参数 。 如 果 没 有 指定 任何 参数 ， 
参数 age 将 为 默认 值 32。 
口 fepiz 将 对 象 转换 为 其 字符 串 表 示 。 因 此 ， 如 果 element 包 含 数 1，itepr(element) 将 与 "1" 等 
价 ， 而 'element ' 是 一 个 字面 字符 串 。 
口 在 Python 中 ,方法 和 成 员 变 量 ( 属性 ) 都 是 不 受 保护 的 ， 即 不 能 指定 为 私有 的 。 封 装 不 过 
是 一 种 编程 风格 。( 如 果 确 实 需要 ， 可 使 用 命名 约定 来 实现 一 定 程 度 的 保护 ， 如 让 名 称 以 
一 个 或 两 个 下 划 线 打头 。) 
下 面 来 说 说 短路 逻辑 。 
在 Python 中 ， 所 有 的 值 都 可 用 作 逻 辑 值 ， 其 中 一 些 空 值 (如 False、[] 、0、"" 和 None ) 表示 
逻辑 假 ， 而 其 他 值 (如 True、[o]、1 和 "Hello，world" ) 大 都 表示 逻辑 真 。 
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对 于 诸如 a and b 的 逻辑 表达 式 ， 像 下 面 这 样 计算 其 值 。 
口 检查 a 是 否 为 真 。 
口 如 果 不 是 ， 就 直接 返回 它 。 
口 如 果 是 ， 就 直接 返回 pb ( 它 就 是 整个 表达 式 的 值 )。 
对 于 逻辑 表达 式 a or bp， 则 像 下 面 这 样 计算 其 值 。 
口 如 果 a 为 真 ， 就 返回 它 。 
口 否则 ， 就 返回 b。 

这 种 短路 机 制 让 你 能 够 像 使 用 布尔 运算 符 一 样 使 用 and 和 or ， 还 让 你 能 够 编写 简短 的 条 件 表 
达 式 。 例 如 ， 下 面 的 语句 : 

if a: 

print(a) 


else: 
print(b) 


可 改写 成 这 样 : 
print(a or b) 


实际 上 ， 这 在 某 种 程度 上 是 一 个 Python 成 例 ， 因 此 你 最 好 习惯 它 。 























注意 ”实际 上 ，Python 也 提供 了 条 件 表 达 式 ， 让 你 能 够 编写 类 似 于 下 面 的 代码 : 


print(a if a else b) 


在 前 面 的 示例 中 , Basket 的 构造 函数 (Basket. init ”) 就 使 用 了 这 种 策略 来 处 理 默 认 参 数 。 
参数 contents 的 默认 值 为 None( 表示 假 )， 因 此 要 检查 它 是 否 包 含 值 ， 可 这 样 编写 代码 : 


if contents: 

self.contents = contents 
else: 

self.contents = [] 


但 这 个 构造 函数 没有 这 样 做 ， 而 是 使 用 了 下 面 这 条 简单 的 语句 : 

self.contents = contents or [] 

为 何不 直接 将 默认 值 设置 为 [] 呢 ? 鉴于 Python 的 工作 方式 ， 如 果 这 样 做 ， 所 有 Basket 实 例 的 
属性 contents 都 默认 为 空 列 表 ， 而 一 旦 填充 一 个 这 样 的 实例 ， 所 有 这 样 的 实例 都 将 包含 同样 的 元 
素 ， 且 默认 值 不 再 为 空 列表 。 有 关 这 方面 的 详细 信息 ， 请 参阅 第 5 章 对 相同 和 相等 的 差别 所 做 的 


讨论 。 















































注意 像 方 法 Basket. init 中 那样 将 None 用 作 占 位 符 时 ,使 用 条 件 contents is None 比 检查 这 
个 参数 的 布尔 值 更 安全 。 这 让 你 能 够 传 入 诸如 空 列表 等 假 值 ， 同 时 在 对 象 外 部 保留 对 它 
的 引用 。 
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如 果 你 就 是 要 将 默认 值 设置 为 空 列表 , 可 像 下 面 这 样 做 来 避免 在 实例 之 间 共 享 内 容 带 来 的 


def init (self, contents=[]): 
self.contents = contents[:] 


你 猜 到 了 其 中 的 工作 原理 吗 ? 这 里 没有 在 每 个 实例 中 都 使 用 同一 个 空 列表 , 而 是 使 用 表达 式 
contents [ :] 来 创建 其 副本 。( 这 创建 包含 整个 列表 的 切片 。) 

要 创建 Basket 实 例 并 使 用 它 ( 对 其 调用 一 些 方法 )， 可 像 下 面 这 样 做 ; 

b = Basket(['apple', 'orange']) 

b.add("lemon") 

b.print me() 

这 将 打印 这 个 Basket 实 例 的 内 容 : 一 个 苹果 、 一 个 橘子 和 一 个 柠檬 。 

除 _init 外, 还 有 其 他 的 魔法 方法 。 一 个 这 样 的 方法 是 _str_， 它 定义 了 对 象 被 视 为 字符 
串 时 是 什么 样 的 。 在 Basket 类 中 ， 可 使 用 下 面 的 方法 来 替换 print_me。 


def str (self): 

















result = "" 
for element in self.contents: 
result = result + " " + repr(element) 


return "Contains: ”+ result 
现在 ， 如 果 你 要 打印 Basket 对 象 b， 只 需 像 下 面 这 样 做 : 
print(b) 
是 不 是 很 酷 ? 
要 派生 出 子 类 ， 可 像 下 面 这 样 做 : 


class SpamBasket(Basket) : 
i 











Python 支 持 多 继承 ,因此 可 在 括号 内 指定 多 个 由 逗号 分 隔 的 超 类 。 要 实例 化 类 ， 可 像 下 面 这 
样 做 : x = Basket()。 前 面 说 过 ,构造 函数 是 通过 定义 特殊 成 员 函 数 _init_ 来 提供 的 。 

假设 SpanBasket 包 含 构造 函数 _init (self，type) ， 则 可 像 下 而 这 样 创建 其 实例 ，y - 
SpamBasket("apples")。 

在 SpamBasket 的 构造 函数 中 ， 如 果 需 要 调用 一 个 或 多 个 超 类 的 构造 函数 ， 可 像 下 面 这 样 做 : 
Basket._init (self)。 请 注意 ， 除 提供 普通 参数 外 ， 还 必须 显 式 地 提供 参数 self， 因 为 超 类 的 
_init 不 知道 处 理 的 是 哪个 实例 。 另 一 种 更 佳 (也 更 神奇 ) 的 做 法 是 使 用 super()._init_()。 

有 关 Python 面 向 对 象 编程 的 详细 信息 ， 请 参阅 第 7 章 。 


A.4 知识 点 补充 


在 这 个 附录 的 最 后 ,我 将 简单 地 介绍 其 他 一 些 很 有 用 的 知识 。 大 多 数 函 数 和 类 都 放 在 模块 中 ， 
而 模块 其 实 就 是 文件 扩展 名 为 .py 的 文本 文件 , 其 中 包含 Python 代 码 。 你 可 在 程序 中 通过 导入 来 使 
用 这 些 函 数 和 类 。 例 如 ， 要 使 用 标准 模块 math 中 的 函数 sqrt， 可 像 下 面 这 样 做 : 
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import math 
x = math.sqrt(y) 


也 可 像 下 面 这 样 做 : 

from math import sqrt 

x = sqrt(y) 

有 关 标 准 库 模块 的 详细 信息 ， 请 参阅 第 10 章 。 

导入 模块 /脚本 时 ， 将 运行 其 中 的 所 有 代码 。 要 让 你 的 程序 既是 可 导入 的 模块 又 是 可 运行 的 
程序 ， 可 在 未 尾 添 加 类 似 于 下 面 的 代码 。 

if name ==" main ": main() 

这 是 一 种 奇妙 的 方式 ， 相当 于 说 : 如 果 这 个 模块 是 作为 可 执行 的 脚本 运行 的 ( 即 不 是 将 其 导 
入 其 他 脚本 )， 就 调用 函数 main。 当 然 ， 可 以 在 上 述 语句 的 冒号 后 面 做 任何 事情 。 

在 UNIX 中 ， 要 创建 可 执行 的 脚本 ， 可 将 下 面 的 代码 作为 第 一 行 ， 让 脚本 能 够 独立 地 运行 : 

#1/usr/bin/env python 

最 后 ， 简 单 地 介绍 一 个 重要 的 概念 : 异常 。 有 些 操作 〈 如 除 以 零 或 读 取 不 存在 的 文件 ) 会 导 
致 错误 条 件 〈 蜡 常 )。 你 甚至 可 以 创建 自 定义 异常 ， 并 在 合适 的 时 候 引 发 它们 。 

如 果 蜡 常 未 得 到 处 理 ， 程 序 将 终止 并 打印 一 条 错误 消息 。 要 避免 出 现 这 种 情况 ， 可 使 用 
try/except 语 句 ， 如 下 所 示 : 


def safe division(a, b): 
try: 
return a/b 
except ZeroDivisionError: pass 


ZeroDivisionError 是 一 种 标准 异常 。 在 这 个 示例 中 ， 可 检查 b 是 否 为 零 ， 但 在 很 多 情况 下 ， 
这 种 策略 都 行 不 通 。 男 外 ， 如 果 将 safe_division 中 的 try/except 语 句 删 除 ， 导 致 它 变 成 一 个 调用 
起 来 有 风险 的 函数 ( 并 将 其 命名 为 unsafe_division )， 你 依然 可 以 像 下面 这 样 做 : 


try: 
unsafe division(a, b) 
except ZeroDivisionError: 
print("Something was divided by zero in unsafe division") 


在 问题 通常 不 会 发 生 但 有 可 能 发 生 时 ， 使 用 异常 可 避免 执行 代价 高 昂 的 测试 等 工作 。 
就 介绍 到 这 里 ， 但 愿 你 有 所 收获 。 现 在 就 去 自行 尝试 吧 ， 但 别 忘 了 Python 学 习 艇 言 : 利用 源 
代码 进行 学 习 (基本 上 意味 着 阅读 能 够 获得 的 所 有 代码 )。 
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本 附录 绝 非 完整 的 Python 参考 手册 。 要 获得 完整 的 参考 手册 ， 请 参阅 Python 标准 文档 
( http://python.org/doc/ )。 本 附录 只 是 一 个 便利 的 速 查 表 ， 当 你 开始 使 用 Python 进行 编程 后 ， 它 可 
帮助 你 唤醒 记忆 。 


B.1 表达 式 


本 节 总 结 Python 表 达 式 。 表 B-1 列 出 了 Python 中 最 重要 的 基本 值 ( 字面 量 ), 表 B-2 列 出 了 Python 
运算 符 及 其 优先 级 ( 先 执行 优先 级 高 的 运算 符 , 后 执行 优先 级 低 的 运算 符 )。 表 B-3 描 述 了 一 些 最 
重要 的 内 置 函数 。 表 B-4~ 表 B-6 分 别 描述 了 列表 的 方法 、 字 典 的 方法 和 字符 串 的 方法 ”。 


表 B-1 基本 值 〈 字 面 量 ) 























类 型 描 述 语法 示例 
整数 没有 小 数 部 分 的 数字 42 
浮 点 数 有 小 数 部 分 的 数字 42.5、42.5e-2 
复数 实数 ( 整数 或 浮 点 数 ) 和 虚数 的 和 38 + 4j、42j 
字符 串 不 可 修改 的 字符 序列 "foo'、 "bar”、"""baz"""、 Ir'\n’ 
表 B-2 ”运算 符 
运 算 符 描 述 优 先 级 
lambda lambda 表 达 式 1 
. if ...else 添加 表达 式 2 
or 逻辑 或 3 
and 逻辑 与 4 
not. 逻辑 非 5 
in 成 员 资 格 检 查 6 
not in 非 成 员 资 格 检查 6 














@ 表 B-3 的 有 些 项 虽然 通常 被 称 为 内 置 函 数 ， 但 实际 上 是 类 。 
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( 续 ) 
运 算 符 描 述 优 先 级 

Is 相同 性 测试 6 
is not 不 相同 测试 6 
< 小 于 6 
> 大 于 6 
<= 小 于 或 等 于 6 
党 大 于 或 等 于 6 
3 等 于 6 
=- 不 等 于 6 

按 位 或 7 
“ 按 位 异 或 8 
& 按 位 与 9 
<< 左 移 位 10 
右 移 位 10 
和 加 11 
- 减 11 
* 乘 12 
@ 和 矩阵 乘法 12 
‘ 除 12 
// 整数 除法 12 
% 求 余 12 
+ 单 目 相同 13 
, 单 目 相反 13 
按 位 求 补 13 
i 震 14 
x.attribute 晨 性 引用 15 
x[index] 元 素 访 问 15 
x[index1:index2[:index3]] 团 片 15 
f(args...) 函数 调用 15 
(...) 将 表达 式 用 括号 括 起 或 元 组 显示 16 
[...] 列表 显示 16 
{key:value, ...} 字典 显示 16 
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表 B-3 ”一些 重要 的 内 置 函 数 


描 述 





abs (number) 
all(iterable) 
any(iterable) 
ascii(object) 
bin(integer) 
bool(x) 


bytearray([string, [encoding[ ,errors]]] 


bytes([string, [encoding[, errors]]] ) 
callable(object) 

chr(number) 

classmethod(func) 

complex(real[, imag] ) 

delattr(object, name) 


dict([mapping-or-sequence] ) 


dir([object] ) 





divmod(a, b) 


enumerate(iterable) 


eval(string[, globals[, locals]]) 


filter(function, sequence) 





float (object) 


format(value[, format spec]) 





frozenset([iterable]) 
getattr(object, name[, default]) 
globals() 

hasattr(object, name) 
help([object]) 

hex(number) 

id(object) 

input([prompt]) 





返回 数字 的 绝对 值 

如 果 iterable 的 所 有 元 素 都 为 真 值 ， 就 返回 True; 否则 返回 False 

如 果 iterable 的 所 有 元 素 都 为 假 值 ， 就 返回 False; 否则 返回 True 

类 似 于 repr， 但 对 非 ASCI 字 符 进 行 转 义 

将 整数 转换 为 以 字符 串 表 示 的 二 进 制 字 1 

将 x 解 读 为 布尔 值 ， 并 返回 True 或 False 
) “创建 一 个 bytearray， 可 根据 指定 的 字符 串 给 它 赋值 ， 还 可 指定 编码 和 

错误 处 理 方式 

类 似 于 bytearray,， 但 返回 一 个 可 修改 的 bytes 对 象 

检查 对 象 是 否 是 可 调用 的 
回 一 个 字符 ， 其 Unicode 码 点 为 指定 的 数字 
据 实例 方法 创建 一 个 类 方法 (参见 第 7 章 ) 
回 一 个 复数 ， 其 实 部 和 虚 部 分 别 为 指定 的 值 
州 除 指定 对 象 的 指定 属性 
创建 一 个 字典 。 可 根据 另 一 个 映射 或 (key，value) 列 表 来 创建 ， 也 可 使 
] 关 键 字 参数 来 调 
列 出 当前 可 见 作 用 域 中 的 (大 部 分 ) 命 令 , 或 列 出 指定 对 象 的 ( 大 部 分 ) 
属性 
返回 (a // b，a % b)〈 对 于 浮 点 数 ， 有 一 些 特殊 规则 ) 
迭代 iterable 中 所 有 项 的 (index，item)。 可 提供 关键 字 参 数 start ， 以 
便 不 从 开头 开始 迭代 
计算 以 字符 串 表 示 的 表达 式 ， 还 可 在 指定 的 全 局 和 局 部 作用 域内 进行 
返回 一 个 列表 , 其 中 包含 指定 序列 中 这 样 的 元 素 , 即 对 其 应 用 指定 的 函 
数 时 ， 结 果 为 真 值 
将 字符 串 或 数字 转换 为 浮 点 数 
返回 对 指定 字符 串 设 置 格式 后 的 结果 。 格 式 设置 规 范 的 作用 与 字符 串 方 
法 format 中 相同 


创建 一 个 不 可 修改 的 集合 ， 这 意味 着 可 将 其 添加 到 其 他 集合 中 
返回 指定 对 象 中 指定 属性 的 值 ， 还 可 给 这 个 属性 指定 默认 值 
返回 一 个 表示 当前 全 局 作用 域 的 字典 

丛 查 指定 对 象 是 否 包含 指定 的 属性 

调用 内 置 的 帮助 系统 ， 或 打印 有 关 指 定 对 象 的 帮助 信息 
将 数字 转换 为 十 六 进 制 字符 串 

返回 指定 对 象 的 独一无二 的 ID 

以 字符 串 的 方式 返回 用 户 输 入 的 数据 ， 还 可 显示 指定 的 提示 语 
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函数 


描 


述 





int(object[, radix]) 


isinstance(object, classinfo) 


issubclass(class1, class2) 


iter(object[, sentinel]) 


len(object) 
list([sequence]) 

locals() 

map(function, sequence, ...) 


max(object1, [object2, ...]) 


min(object1, [object2, ...]) 


next(iterator[, default]) 


object() 


oct(number) 


open(filename[, mode[, bufsize]]) 


ord(char) 


pow(x, y[, z]) 
print(xy sa.) 


property([fget[, fset[, fdel[, doc]]]]) 


range([start, ]stop[, step]) 


repr(object) 
reversed(sequence) 


round(float[, n]) 


set([iterable]) 


setattr(object, name, value) 


sorted(iterable[, cmp][, key][, reverse]) 


将 字符 串 或 数字 转换 为 整数 ， 还 可 指定 














检查 object 是 否 是 classinfo 的 实例 ， 





类 型 对 象 或 类 和 类 型 对 象 元 组 


检查 class1 是 否 是 class2 的 子 类 (每 








其 中 参数 classinfo 可 以 是 类 对 象 、 








个 类 都 被 视 为 是 它 自己 的 子 类 ) 























返回 一 个 迭代 器 对 象 , 即 object. iter ()。 这 个 迭代 器 对 象 用 于 迭代 
序列 ( 如 果 object 支 持 ”getitem ”) 。 如 果 指 定 了 sentinel， 这 个 迭代 











器 将 不 断 调 用 object， 直 到 返 匠 




















返回 指定 对 象 的 长 度 (包含 的 项 数 ) 


仓 


LS 





建 一 个 列表 ， 也 可 根据 指定 的 序列 创建 列表 
返回 一 个 表示 当前 局 部 作用 域 的 字典 ( 请 不 要 修改 这 

















个 字典 ) 
创建 一 个 列表 ， 其 中 包含 对 指定 序列 包含 的 项 执行 指定 函数 返回 的 值 











的 是 sentinel 





一 








于 


如 果 object1 不 是 空 序 列 ， 就 返 
数 (object1、object2 等 ) 中 最 

















最 大 的 元 素 ; 否则 返回 提供 的 参 









































如 果 object1 不 是 空 序列 ， 就 返 
数 (object1、object2 等 ) 中 最 
返回 iterator. next () 的 值 ， 
器 末 尾 时 将 返回 的 值 
































还 可 

















的 那个 
中 最 小 的 元 素 ; 否则 返回 提供 的 参 
小 的 那个 





指定 默认 值 , 它 指定 在 到 达 了 迭代 





返回 一 个 object 实 例 ; object 是 所 有 新 式 类 的 基 类 














将 整数 转换 为 八进制 字符 串 











打开 一 个 文件 并 返回 一 个 文件 对 象 ( 还 有 其 他 的 可 选 参数 , 如 指定 编码 








和 错误 处 理 方式 的 参数 ) 
返回 指定 字符 的 Unicode 码 点 








返回 x 的 y 次 方 ， 还 可 将 结果 对 z 求 模 
将 0 个 或 更 多 参数 作为 一 行 打印 到 标准 输出 ， 并 用 空格 分 隔 参数 。 可 使 
fush 调 整 这 种 行为 














] 关 键 字 参数 sep 、end、file 和 





根据 一 组 存 取 函 数 创建 一 个 特 | 











以 序列 的 方式 返 


nm 




















返回 对 象 的 字符 串 表 示 ， 通 常 























生 (参见 第 9 章 ) 。 

根据 参数 start ( 包含， 默认 为 0) 、stop (不 包含 ) 和 step (默认 为 1 ) 
指定 范围 内 的 一 系列 值 

] 作 eval 的 参数 

返回 一 个 反 向 迭代 序列 的 迭代 器 








将 指定 的 浮 点 数 圆 整 到 小 数 点 后 n 位 〈 黑 认为 零 位 ) 。 关 于 详尽 的 圆 整 





规则 ， 请 参阅 官方 文档 








返回 一 个 集合 ;如果 指定 了 iterable， 该 集合 的 元 素 将 是 从 中 取得 的 
将 指定 对 象 的 指定 属性 设置 为 指定 的 值 
返回 一 个 排序 后 的 列表 ， 其 中 的 元 素来 自 iterable。 可 选 参 数 与 列表 的 











方法 sort 相 同 
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( 续 ) 
函 数 描 述 
staticmethod(func) BE 一 个 静态 (类 ) 方法 ( 参见 第 7 章 ) 


str(object) 
sum(seq[, start]) 


super([type[, obj/type]]) 
tuple([sequence]) 


type(object) 
type(name, bases, dict) 


vars([object]) 


zip(sequence1, ...) 


六 。 法 












































创建 一 个 元 组 ， 义 





返回 一 个 新 的 类 型 对 象 ， 其 名 称 、 基 类 和 作用 域 





的 格式 良好 的 字符 串 表 示 
P 所 有 元 素 的 总 和 ， 再 加 上 可 选 参数 start 的 值 (默认 为 























委托 给 超 类 的 代理 
0 果 指 定 了 可 选 参数 sequence， 该 元 组 包含 的 项 将 与 该 


























1 相应 的 参数 指定 





















































-3 


要 修改 这 个 字典 ) 
回 一 个 元 组 迭代 器 ， 
列表 与 提供 的 最 短 序 列 等 长 


表 B-4 ”列表 的 方法 





启 


] 域 的 字典 或 一 个 包含 指定 对 象 的 属性 的 字典 ( 请 





























描 述 


其 中 每 个 元 组 都 包含 提供 序列 的 相应 项 。 返 回 的 





alList.append(obj) 


aList.clear() 


7 中 


aList.count(obj) 


alList.copy() 


P 中 


aList.extend(sequence) 


TF 


aList.index(obj) 


OU 
Eis 
W 
中 


.insert(index, obj) 


下 小 


alList.pop([index]) 


.Temove(obj ) 


f 


alLis 


中 


aList.reverse() 





OU 
上 
un 
中 


方 法 





























aList 中 第 一 个 与 obpj 机 


























就 地 按 相反 的 顺序 提 


等 同 于 aList[len(aList) :len(aList)] = [obj] 


P 与 obj 相 等 的 元 素 个 数 
， 这 是 浅 复制 ， 即 不 会 复制 元 素 
于 aList[len(aList):len(aList)] = Sequence 
日 等 的 元 素 的 索引 如 旦 




















.sort([cmp][,key][,reverse]) 















































没有 这 样 的 元 素 ， 就 引发 





FaList[index:index] = [obj]; 如 果 index < 0， 就 
F 头 

(默认 为 -1 ) 处 的 元 素 
t[aList.index(obj)] 

FE 列 列表 的 元 素 

闻 (〈 稳定 排序 ) 。 可 通过 提供 比较 函数 cmp、 键 函数 








表 B-5 ”字典 的 方法 











的 键 ) 和 降序 标志 reverse (一 个 布尔 值 ) 进行 定制 





aDict.clear() 
aDict.copy() 


aDict.fromkeys(seq[ ,val]) 


aDict.get(key[ ,default]) 


a 



























































已 ; 

















的 键 来 自 seq， 而 值 都 被 设置 为 val ( 默认 为 None ) 。 可 直接 
作为 类 方法 来 调用 
否则 返回 指定 的 默认 值 (默认 为 None ) 
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( 续 ) 

方 ” 法 描 ” 述 
aDict.items() 返回 一 个 迭代 器 (实际 上 是 一 个 视图 ) ， 其 中 包含 表示 aDict 各 项 的 (key，value) 对 
aDict.iterkeys() 返回 一 个 可 用 于 对 apDict 的 键 进 行 迭 代 的 可 迭代 对 象 
aDict.keys() 返回 一 个 迭代 右 ( 视图 ) ， 其 中 包含 aDict 中 所 有 的 键 
aDict.pop(key[，d]) 删除 并 返回 对 应 于 给 定 键 的 值 ， 或 给 定 默认 值 d 
aDict.popitem() 从 aDict 随 机 的 删除 一 项 ， 并 将 其 以 (key，value) 对 的 方式 返回 
aDict.setdefault(key[, default]) 如 果 aDict[key] 存 在 ， 就 返回 它 ; 否则 就 返回 指定 的 默认 值 ( 默认 为 None ) ， 并 














将 aDict 











key] 设 置 为 指定 的 默认 值 



































































































































































































































































































































aDict.update(other) 将 other 中 的 每 项 都 添加 到 aDict ( 可 能 覆 羡 既 有 的 项 ) 。 也 可 以 像 调用 字典 构造 
函数 那样 指定 类 似 的 参数 

aDict.values() 返回 一 个 迭代 器 〈 视 图 ) ， 其 中 包含 apict 中 所 有 的 值 (可 能 有 重复 的 ) 

表 B-6 ”字符 串 的 方法 
方法 描 述 

string.capitalize() 返回 字符 串 的 副本 ， 但 将 第 一 个 字符 大 写 

string.casefold() 返回 经 过 标准 化 ( normalize ) 后 的 字符 串 ， 标 准 化 类 似 于 转换 为 小 写 
但 更 适合 用 于 对 Unicode 字 符 串 进行 不 区 分 大 小 写 的 比较 

string.center(width[, fillchar]) 返回 一 个 长 度 为 (len(string), width) 的 字符 串 。 这 个 字符 串 的 中 间 包 含 
当前 字符 串 ， 但 两 端 用 fi 计 lchar 指 定 的 字符 ( 默认 为 空格 ) 填充 

string.count(sub[, start[, end]]) 计算 子 串 sub 出 现 的 次 数 ， 可 搜索 范围 限定 为 string[start:end 

string.encode([encoding[ ,errors]]) 返回 使 用 指定 编码 和 errors 指 定 的 错误 处 理 方式 对 字符 串 进 行 编码 的 结 
果 ， 参 数 errors 的 可 能 取 值 包 含 'strict' 、'ignore' 、'replace' 等 

string.endswith(suffix[, start[,end]]) 检查 字符 串 是 否 以 suffix 结 尾 , 还 可 使 用 索引 start 和 end 来 指定 匹配 范围 

string.expandtabs([tabsize]) 返回 将 字符 串 中 的 制 表 符 展 开 为 空格 后 的 结果 , 可 指定 可 选 参 数 tabsize 
( 默认 为 8 ) 

string.find(sub[, start[, end]]) 返回 找到 的 第 一 个 子 串 sub 的 索引 , 如 果 没 有 找到 这 样 的 子 串 , 就 返回 -1; 
还 可 将 搜索 范围 限制 为 string[start:end] 

string. format(...) 实现 了 标准 的 Python 字 符 串 格式 设置 。 将 字符 串 中 用 大 括号 分 阳 的 字段 
替换 为 相应 的 参数 ， 再 返回 结果 

string. format map(mapping) 类 似 于 使 用 关键 字 参 数 调用 format ， 只 是 参数 是 以 映射 的 方式 提供 的 

string.index(sub[, start[, end]]) 返回 找到 的 第 一 个 子 串 sub 的 索引 ， 如 果 没 有 找到 这 样 的 子囊， 将 引发 
ValueError 异 常 ; 还 可 将 搜索 范围 限制 为 string[start:end] 

string.isalnum 检查 字符 串 中 的 字符 是 否 都 是 字母 或 数 

string.isalpha 检查 字符 串 中 的 字符 是 否 都 是 字母 

string.isdecimal() 检查 字符 串 中 的 字符 是 否 都 是 十 进 制 数 

string.isdigit 检查 字符 串 中 的 字符 是 否 都 是 数字 

string.isidentifier() 丛 查 字符 串 是 否 可 用 作 Python 标 识 符 

string.islower 检查 字符 串 中 的 所 有 字母 都 是 小 写 的 
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( 续 ) 
方 ”法 描述 
string.isnumeric() 仿 查 字符 串 中 的 所 有 字符 是 否 都 是 数字 字符 


wm 


an 


wm 


an 


an 


JW 


wm 


an 


an 


wm 


wm 


wm 


an 


wm 


JW 


wm 


JW 


an 


an 


JW 


an 


JW 


tring.1just(width[， 





tr.maketrans(x[,y 





tring.isprintable() 
tring.isspace() 


tring.istitle() 


tring.isupper() 


tring.join(sequence) 


fillchar]) 


tring. lower() 


tring.1lstrip([chars]) 


[,z]]) 


tring.partition(sep) 


tring.replace(old, new[ ,max]) 


tring.rfind(sub[, start[,end]]) 


tring.rindex(sub[, start[ ,end]]) 


tring.Tjust(width[ ,fillchar]) 


tring.rpartition(sep) 


tring.rstrip([chars]) 


tring.rsplit([sep[, maxsplit]]) 
tring.split([sep[, maxsplit]]) 





tring.splitlines([keepends]) 





tring.startswith(prefix[ ,start[,end]]) 








tring.strip([chars]) 


tring. swapcase() 


检查 字符 串 中 人 的 









































8 在 字 符 串 中 的 字符 是 否 都 是 空白 字符 
和 
小 写 的 





检查 字符 串 中 的 字母 是 否 都 是 大 写 的 


各 string 与 sequence 中 的 所 有 字符 串 元 素 合并 ， 并 返回 结果 











返回 一 个 长 度 为 max(len(string)，width) 的 字符 串 ， 其 开头 是 当前 字符 


中 
中 





将 
将 


换行 符 ) 都 删除 ， 
一 个 静态 方法 ， 


数 


也 


在 
符 


制 











符 
与 


岗 


5 莹 岗 巷 守 


藤 DE 


EE 
二 





芝 


字符 








的 副本 ， 而 末尾 是 使 用 fillchar 指 定 


字符 串 中 所 有 的 字母 都 转换 为 小 写 ， 
开头 所 有 的 chars( 默认 为 所 有 的 空白 字符 ， 如 空格 、 制 表 符 和 

















并 返回 结果 








的 字符 (默认 为 空格 ) 填充 的 
并 返回 结果 




















它 创 建 一 个 供 translate 使 用 的 转换 表 。 如 果 只 指定 了 参 





x， 它 必须 是 从 字符 或 序数 到 Unicode 序 数 或 None ( 用 于 删除 ) 的 映射 ; 

















可 使 








， 它 指定 


要 删除 的 字符 





] 两 个 表示 源 字符 和 目标 字符 的 字符 串 




















调用 它 ; 还 可 提供 第 三 个 











字符 串 中 搜索 sep， 并 返回 元 组 (sep 前 面 的 部 分 ，sep，sep 后 面 的 部 分 ) 





各 字符 串 中 的 子 串 ol1d 替 换 为 new， 并 返 
为 max 









































可 找到 的 最 后 一 个 子 串 sup 的 索引 ， 





回 结果 ; 还 可 将 最 大 替换 次 数 限 








可 找到 的 最 后 一 个 子 串 的 索引 ,如 果 没 有 找到 这 样 的 子 串 ,就 返回 -1; 
可 将 搜索 范围 限定 为 string[start:end 








如 果 没 有 找到 这 样 的 子 串 ，, 就 引发 














ueError 异 常 ; 





的 拷贝 ， 而 开头 是 使 用 fillchar 指 
partition 相 同 ,， 但 从 右 往 左 搜索 











将 字符 串 末 尾 所 有 的 chars 字 符 ( 默认 为 所 有 的 空 


和 换行 符 ) 都 删除 ， 并 返回 结果 

































































还 可 将 搜索 范围 限定 为 string[start:end] 


回 一 个 长 度 为 max(len(string)，width) 的 字符 串 ， 其 末尾 为 当前 字符 
定 的 字符 ( 默认 为 空格 ) 填充 的 























白字 符 ， 如 空格 、 制 表 


从 右 往 左 计算 划分 次 数 














隔 符 对 字符 串 进 行 划分 得 到 的 结 











白字 符 为 分 隔 符 进 行 划 分 ) ; 还 可 











数 keepends 为 True， 








将 匹配 范围 限制 在 索引 start 和 end 




















split 相 同 ， 但 指定 了 参数 maxsplit， 

可 一 个 列表 ， 其 中 包含 以 sep 为 分 

0 果 没 有 指定 参数 sep， 将 以 所 有 空 

最 大 划分 次 数 限制 为 naxsplit 

回 一 个 列表 ， 其 中 包含 字符 串 中 的 所 有 行 ， 如 果 参 
包含 换行 入 

查 字符 串 是 否 以 prefix 打 头 ; 还 可 

间 

字符 串 开头 和 结尾 的 所 有 chars 字 符 ( 默认 为 所 有 空白 字符 ， 如 空格 、 
判 表 符 和 换行 符 ) 都 删除 ， 并 返回 结果 

字符 串 中 所 有 字母 的 大 小 写 都 反 转 ， 并 返回 结果 
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( 续 ) 
方 ” 法 描 ” 述 
string.title() 将 字符 串 中 所 有 单词 的 首 字母 都 大 写 ， 并 返回 结果 
string.translate(table) 根据 转换 表 table ( 这 是 使 用 maketrans 创 建 的 ) 对 字符 串 中 的 所 有 字符 都 
进行 转换 ， 并 返回 结果 
string.upper() 将 字符 串 中 所 有 的 字母 都 转换 为 大 写 ， 并 返回 结果 
string.zfill(width) 在 字符 串 左 边 填充 0( 但 将 原来 打头 的 + 或 - 移 到 开头 ) , 使 其 长 度 为 width 
B.2 语句 


本 节 总 结 各 种 类 型 的 Python 语句 。 
B.2.1 简单 语句 


简单 语句 只 包含 一 个 逻辑 行 。 

1. 表达 式 语 句 

表达 式 本 身 可 以 为 语句 。 这 在 表达 式 为 函数 调用 或 文档 字符 串 时 特别 有 用 。 
示例 : 
"This module contains SPAM-related functions." 

2. 断言 语句 

业 言 语句 检查 条 件 是 否 满足 , 如 果 不 满足 , 就 引发 AssertionError 异 常 ( 并 可 提供 错误 消息 )。 
示例: 

assert age >= 12, 'Children under the age of 12 are not alowed 

3. 赋值 语句 

赋值 语句 将 变量 与 值 关联 起 来 。 可 通过 序列 解 包 同时 给 多 个 变量 赋值 ， 还 可 进行 链 式 赋值 。 


示例 : 





























X = 42 # 简单 赋值 
name, age = 'Gumby', 60 # 序列 解 包 
XY S27 10 # 链 式 赋值 


4. 增强 赋值 语句 

可 使 用 运算 符 来 增强 赋值 。 在 这 种 情况 下 , 将 对 变量 的 当前 值 和 指定 的 值 执行 运算 符 指定 的 
运算 ,并 将 变量 重新 关联 到 结果 。 如 果 原 来 的 值 是 可 变 的 ， 可 能 修改 原来 的 值 ( 并 让 变量 依然 关 
联 到 原来 的 值 )。 

示例 : 


尺 , 训 光 # 将 x 的 值 翻 倍 
X += 5 # 将 x 的 值 加 5 
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作 ， 





5 pass 语 名 

pass 语 句 不 执行 任何 操作 ， 可 用 作 占 位 符 。 在 语法 要 求 的 代码 块 中 ， 如 果 你 不 想 执行 任何 操 
可 让 它 只 包含 pass 语 句 。 

示例 : 


try: x.name 
except AttributeError: pass 
else: print('Hello', x.name) 


6. del 语 句 
del 语 句 用 于 解除 变量 和 属性 与 值 的 关联 以 及 将 数据 结构 ( 映射 或 序列 ) 的 一 部 分 (如 (位 






































、 切 片 或 存储 模 ) 删除 。 不 能 直接 使 用 它 来 删除 值 ， 因 为 值 只 能 通过 垃圾 收集 来 删除 。 





示例 : 

del x # 解除 变量 与 值 的 关联 
del seq[42] # 删除 序列 中 的 一 个 元 素 
del seq[42:] # 删除 序列 中 的 一 个 切片 
del map[ foo']  # 删除 映射 中 的 一 项 


7. return 语 句 
retuzrn 语 句 结束 函数 的 执行 并 返回 一 个 值 。 如 果 没 有 指定 值 ， 将 返回 None。 
示例 : 





return # 从 当前 函数 返回 None 
return 42 # 从 当前 函数 返回 42 
return 1, 2, 3 # 从 当前 函数 返回 (1，2，3) 


8. yield 语 句 

yield 语 句 和 暂停 执行 生成 品 ， 并 返回 一 个 值 。 生 成 融 是 一 种 迭代 需 ， 可 用 于 for 循 环 中 。 
示例 : 

yield 42 # 从 当前 汶 数 返回 42 








9. raise 语 句 


raise 语 名 引发 异常 。 调 用 它 时 可 不 提供 任何 参数 ( 在 except 子 句 中 用 于 重新 引发 当前 捕获 的 








异常 )， 提 供 Exception 的 一 个 子 类 和 一 个 可 选 参 数 ( 在 这 种 情况 下 ， 将 创建 一 个 实例 ) 或 提供 
Exception 子 类 的 一 个 实例 。 


示例 : 


raise ## 只 可 用 于 except 子 句 中 

raise IndexError 

raise IndexError, 'index out of bounds’ 
raise IndexError('index out of bounds') 


10. break 语 句 
break 语 句 结束 它 所属 的 循环 语句 ( for 或 while 语 句 )， 并 接着 执行 该 循环 语句 后 面 的 语句 。 
示例 : 
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while True: 
line = file.readline() 
if not line: break 
print(line) 


11. continue 语 句 
continue 语 句 类 似 于 break 语 句 , 但 结束 所 属 循环 的 当前 迭代 而 不 是 整个 循环 , 即 跳 到 下 一 次 
迭代 开头 继续 执行 。 
示例 : 
while True: 
line = file.readline() 
if not line: break 


if line.isspace(): continue 
print(line) 











| 


12. import 语 句 

import 语 句 用 于 从 外 部 模块 导入 名 称 〈 与 函数 、 类 或 其 他 值 相关 联 的 变量 )。 这 也 包括 from 
_ future import 语句 ， 它 们 用 于 导 和 人 在 未 来 的 Python 版 本 中 将 包含 在 标准 中 的 功能 。 

示例 : 


import math 

from math import sqrt 

from math import sqrt as squareroot 
from math import * 


13. global 语 句 


global 语 句 用 于 将 变量 标记 为 全 局 的 。 在 函数 中 , 可 使 用 它 给 全 局 变量 重新 赋值 。 使 用 global 
语句 通常 被 视 为 糟糕 的 编程 风格 ， 因 此 应 尽 可 能 避免 。 





























示例 : 

count = 1 

def inc(): 
global count 
count += 1 


14. nonlocal 语 句 
类 似 于 global 语 名 ,但 引用 内 部 函数 ( 闭 包 ) 的 外 部 作用 域 。 换 而 言 之 ， 如 果 你 在 一 个 函数 
内 定义 了 男 一 个 函数 并 返回 它 ， 这 个 函数 就 可 引用 并 修改 外 部 函数 中 的 变量 ,条 件 是 使 用 
nonlocal 来 标记 它 。 
示例 : 
def makeinc(): 
Count = 1 
def inc(): 
nonlocal count 


count += 1 
return inc 
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B.2.2 ”复合 语句 
复合 语句 包含 一 组 其 他 的 语句 (代码 块 )。 


1. if 语 句 

if 语 句 用 于 有 条 件 地 执行 ， 可 包含 elif 和 和 else 子 句 。 
示例 : 

if x < 10: 


print('Less than ten') 
elif 10 <= x < 20: 
print('Less than twenty') 
else: 
print('Twenty or more ') 


2. while 语 句 

while 语 句 用 于 在 指定 条 件 为 真 时 反复 地 执行 ( 循环 )， 可 包含 else 子 句 | 这 种 子 句 将 在 循环 
正常 结束 ( 如 没有 执行 任何 break 和 return 语 句 ) 时 执行 ]。 

示例 : 

x=1 

while x < 100: 

X +2 

print(x) 

3. for 语 句 

fo 语句 用 于 对 序列 的 元 素 或 其 他 可 迭代 对 象 ( 包含 返回 迭代 器 的 方法 _iter_ 的 对 象 ) 反 复 
地 执行 (循环 )， 可 包含 else 子 句 [ 这 种 子 句 将 在 循环 正常 结束 ( 如 没有 执行 任何 bpreak 和 return 
语句 ) 时 执行 上 

示例 : 

for i in range(10, 0, -1): 

print(i) 

print('Ignition!') 

4. try 语 句 

try 语 句 用 于 执行 可 能 发 生 异 常 的 代码 段 ， 让 程序 能 够 捕获 这 些 异 常 并 执行 异常 处 理 代码 。 
try 语 句 可 包含 多 个 except 子 句 ( 用 于 处 理 异 常 ) 和 finally 子 名 (这 种 子 句 不 管 情况 如 何者 将 执 
行 ， 可 用 于 执行 清理 工作 )。 

示例 : 

try: 

















40 

except ZeroDivisionError: 

print("Can't divide anything by zero.") 
finally: 

print("Done trying to calculate 1 / 0") 
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如 ， 


5. with 语句 
with 语句 用 于 包装 使 用 上 下 文 管理 器 的 代码 块 ， 让 管理 器 能 够 执行 一 些 设置 和 清理 操作 。 例 
可 将 文件 用 作 上 下 文 管理 器 ， 这 样 它 们 将 在 执行 清理 工作 时 关闭 自己 。 
示例 : 
with open("somefile.txt") as myfile: 
dosomething(myfile) 
# 到 这 里 时 文件 已 关闭 
6. 函数 定义 
函数 定义 用 于 创建 函数 对 象 以 及 将 全 局 或 局 部 变量 与 函数 对 象 关联 起 来 。 
示例 : 


def double(x): 
return x* 2 


























7. 类 定义 
类 定义 用 于 创建 类 对 象 以 及 将 全 局 或 局 部 变量 与 类 对 象 关联 起 来 。 
示例 : 


class Doubler: 
def init (self, value): 
self.value = value 
def double(self): 
self.value *= 2 
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“《Python 基 础 教程 》 非 常 适合 编程 新 手 或 者 具有 中 级 编程 能 力 的 人 阅读 …… 作 者 提出 了 一 些 
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一 一 Amazon.com 























“本 书 系统 全 面 地 讲解 了 Python 语言 ， 后 面 几 章 介 绍 的 10 个 项 目 是 亮点 。” 
一 一 Robert A. Gibson ， 软 件 工 程 师 
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